Skip to main content
新旗舰基座 GLM-4.5 系列模型上线,上新期间狂欢特惠,更有推荐好友送大额 Tokens 活动!立即了解

概览

全新上线的 glm-4.5-flash 模型在确保强大推理能力、稳定代码生成和多工具协同处理能力的同时,具备显著的运行速度优势,且完全免费开放使用 模型支持最长 128K 的上下文处理,可高效应对长文本理解、多轮对话连续性和结构化内容生成等复杂任务,采用混合推理模式,提供两种模式:用于复杂推理和工具使用的思考模式,以及用于即时响应的非思考模式。可通过 thinking.type 参数启用或关闭(支持 enableddisabled 两种设置),默认开启动态思考功能。 glm-4.5-flash 在工具调用、网页浏览、软件工程、前端编程领域进行了优化,可以接入 Claude Code、Roo Code 等代码智能体中使用,也可以通过工具调用接口支持任意的智能体应用。

输入模态

文本

输出模态

文本

上下文窗口

128K

最大输出 Tokens

96K

能力支持

推荐场景

Tips:
  1. 点击“体验一下”会跳转至体验中心,建议先看完使用指南再体验哦~
  2. 体验过程会消耗模型 tokens,如遇体验失败,可通过 链接 抢购特价资源包。
  • 智慧办公
  • 网页搭建
  • AI 助手
  • 智能问答
  • 复杂文本翻译
  • 内容创作
  • 虚拟角色
核心能力:PPT 制作——>逻辑清晰、内容完整、页面呈现
  • 主题内容展开:支持基于一个标题或中心思想生成多页 PPT 内容段落
  • 逻辑结构组织:自动将内容划分为导语、主体、总结等模块,语义分布合理
  • 页面布局提示:可配合使用模板系统,建议内容呈现方式
使用案例:适用于办公自动化系统、AI 演示工具及其它效率类产品PPT 生成效果20250727 161935 Gi

使用资源

体验中心:快速测试模型在业务场景上的效果
接口文档:API 调用方式

调用示例

思考模式

GLM-4.5 系列模型提供了“深度思考模式”,用户可以通过设置 thinking.type 参数来启用或关闭该模式。该参数支持两种取值:enabled(动态)和 disabled (禁用)。默认情况下开启动态思考功能。
  • 简单任务(无需思考):对于不需要复杂推理的简单请求(例如事实检索或分类),无需思考。
    • 智谱AI 的成立时间。
    • 翻译 I love you 这句英语成中文。
  • 中等任务(默认/需要一定程度的思考):许多常见请求都需要一定程度的分步处理或更深入的理解。GLM-4.5系列模型可以灵活运用思考能力来处理以下任务。
    • 为什么木星拥有较多的卫星,而土星却比木星的卫星少得多?
    • 从北京去上海,对比乘坐飞机和动车的优劣势。
  • 困难任务(最大思维能力):对于真正复杂的挑战,例如解决复杂的数学问题,联网问题,编码问题,这类任务要求模型充分发挥推理和规划能力,通常需要经过许多内部步骤才能提供答案。
    • 详细解释 MoE 模型中不同专家是如何配合的。
    • 根据上证指数的近一周的波动情况和时政信息,预测我是否应该购入股票指数 ETF,为什么?

示例代码

以下是一个完整的调用示例,帮助您快速上手 GLM-4.5-Flash 模型。
  • Python
  • Java
  • Python (旧)
安装 SDK
# 安装最新版本
pip install zai-sdk
# 或指定版本
pip install zai-sdk==0.0.4
验证安装
import zai
print(zai.__version__)
调用示例
from zai import ZhipuAiClient

client = ZhipuAiClient(api_key="your-api-key")  # 请填写您自己的 API Key

response = client.chat.completions.create(
    model="glm-4.5-flash",
    messages=[
        {"role": "user", "content": "作为一名营销专家,请为我的产品创作一个吸引人的口号"},
        {"role": "assistant", "content": "当然,要创作一个吸引人的口号,请告诉我一些关于您产品的信息"},
        {"role": "user", "content": "智谱AI 开放平台"}
    ],
    thinking={
        "type": "enabled",    # 启用深度思考模式
    },
    stream=True,              # 启用流式输出
    max_tokens=4096,          # 最大输出 tokens
    temperature=0.7           # 控制输出的随机性
)

# 获取回复
for chunk in response:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end='')