概览
全新上线的 glm-4.5-flash 模型在确保强大推理能力、稳定代码生成和多工具协同处理能力的同时,具备显著的运行速度优势,且完全免费开放使用。
模型支持最长 128K 的上下文处理,可高效应对长文本理解、多轮对话连续性和结构化内容生成等复杂任务,采用混合推理模式,提供两种模式:用于复杂推理和工具使用的思考模式,以及用于即时响应的非思考模式。可通过 thinking.type 参数启用或关闭(支持 enabled 和 disabled 两种设置),默认开启动态思考功能。
glm-4.5-flash 在工具调用、网页浏览、软件工程、前端编程领域进行了优化,可以接入 Claude Code、Roo Code 等代码智能体中使用,也可以通过工具调用接口支持任意的智能体应用。
输入模态
文本
输出模态
文本
上下文窗口
128K
最大输出 Tokens
96K
能力支持
深度思考
启用深度思考模式,提供更深层次的推理分析
流式输出
支持实时流式响应,提升用户交互体验
Function Call
强大的工具调用能力,支持多种外部工具集成
上下文缓存
智能缓存机制,优化长对话性能
结构化输出
支持 JSON 等结构化格式输出,便于系统集成
MCP
可灵活调用外部 MCP 工具与数据源,扩展应用场景
推荐场景
Tips:
- 点击“体验一下”会跳转至体验中心,建议先看完使用指南再体验哦~
- 体验过程会消耗模型 tokens,如遇体验失败,可通过 链接 抢购特价资源包。
- 智慧办公
- 网页搭建
- AI 助手
- 智能问答
- 复杂文本翻译
- 内容创作
- 虚拟角色
核心能力:PPT 制作——>逻辑清晰、内容完整、页面呈现
- 主题内容展开:支持基于一个标题或中心思想生成多页 PPT 内容段落
- 逻辑结构组织:自动将内容划分为导语、主体、总结等模块,语义分布合理
- 页面布局提示:可配合使用模板系统,建议内容呈现方式

使用资源
体验中心:快速测试模型在业务场景上的效果接口文档:API 调用方式
调用示例
思考模式
GLM-4.5 系列模型提供了“深度思考模式”,用户可以通过设置thinking.type 参数来启用或关闭该模式。该参数支持两种取值:enabled(动态)和 disabled (禁用)。默认情况下开启动态思考功能。
- 简单任务(无需思考):对于不需要复杂推理的简单请求(例如事实检索或分类),无需思考。
- 智谱AI 的成立时间。
- 翻译 I love you 这句英语成中文。
- 中等任务(默认/需要一定程度的思考):许多常见请求都需要一定程度的分步处理或更深入的理解。GLM-4.5系列模型可以灵活运用思考能力来处理以下任务。
- 为什么木星拥有较多的卫星,而土星却比木星的卫星少得多?
- 从北京去上海,对比乘坐飞机和动车的优劣势。
- 困难任务(最大思维能力):对于真正复杂的挑战,例如解决复杂的数学问题,联网问题,编码问题,这类任务要求模型充分发挥推理和规划能力,通常需要经过许多内部步骤才能提供答案。
- 详细解释 MoE 模型中不同专家是如何配合的。
- 根据上证指数的近一周的波动情况和时政信息,预测我是否应该购入股票指数 ETF,为什么?
示例代码
以下是一个完整的调用示例,帮助您快速上手 GLM-4.5-Flash 模型。- Python
- Java
- Python (旧)
安装 SDK验证安装调用示例