GLM-Z1

GLM-Z1 系列模型预计将于 2025年11月15日 下线，建议选择最新旗舰文本模型 GLM-4.6，该模型同样支持思考模式。

概览

GLM-Z1 系列包含Air、AirX、FlashX、Flash这四个模型。

GLM-Z1-Air 是一款具备深度思考能力的推理模型。该模型通过推理数据增强和对齐优化，数理推理能力显著增强，适合高频调用场景。GLM-Z1-AirX 为该模型的高速版。
GLM-Z1-FlashX 具有超快推理速度和更快并发保障，极致性价比，进一步降低推理模型的使用门槛，是免费推理模型 GLM-Z1-Flash 的增强版本。

GLM-Z1-Air
GLM-Z1-AirX
GLM-Z1-FlashX
GLM-Z1-Flash

定位

高性价比

价格

0.5 元 / 百万 Tokens

输入模态

文本

输出模态

文本

上下文窗口

128K

最大输出 Tokens

32K

能力支持

内置深度思考

默认内置深度思考，提供更深层次的推理分析

流式输出

支持实时流式响应，提升用户交互体验

Function Call

强大的工具调用能力，支持多种外部工具集成

上下文缓存

智能缓存机制，优化长对话性能

结构化输出

支持 JSON 等结构化格式输出，便于系统集成

MCP

可灵活调用外部 MCP 工具与数据源，扩展应用场景

使用资源

体验中心：快速测试模型在业务场景上的效果
接口文档：API 调用方式

详细介绍

GLM-Z1-Air

GLM-Z1-Air 在 GLM-4-Air-250414 的基础上，采用了冷启动与扩展强化学习策略，并针对数学、代码、逻辑等关键任务进行了深度优化训练。与基础模型相比，GLM-Z1-Air 的数理能力和复杂问题解决能力得到显著增强。此外，训练中整合了基于对战排序反馈的通用强化学习技术，有效提升了模型的通用能力。在部分任务上，GLM-Z1-Air 通过在 AIME 24/25、LiveCodeBench、GPQA 等基准测试中的评估，展现了较强的数理推理能力，能够支持解决更广泛复杂任务。 Description

GLM-Z1-AirX

GLM-Z1-AirX 在训练中整合了基于对战排序反馈的通用强化学习技术，有效提升了模型的通用能力。该模型具备强大的复杂推理能力，在逻辑推理、数学、编程等领域表现优异，推理速度极快远超同类模型。GLM-Z1-AirX 专为高频调用场景设计，在实时数据分析、智能客服等高并发业务中，可实时响应显著降低用户等待耗时。 Description

GLM-Z1-FlashX

GLM-Z1-FlashX 作为轻量化解决方案，在保留 GLM-Z1-Air 完整技术栈的前提下，更轻量级、更高速、更优惠。虽然参数量更少，但 GLM-Z1-FlashX 在数学逻辑推理、长文档处理、代码生成等复杂任务中依然表现出色，整体性能已跻身同尺寸开源模型的领先水平。 GLM-Z1-FlashX 为开发者提供低门槛 AI 实验与轻量化部署支持，兼顾推理效率与推理成本，尤其适合高频调用场景。

调用示例

以下是一个完整的调用示例，以 GLM-Z1-Air 模型为例。

cURL
Python
Java
Python(旧)

基础调用

curl -X POST "https://open.bigmodel.cn/api/paas/v4/chat/completions" \
     -H "Authorization: Bearer your-api-key" \
     -H "Content-Type: application/json" \
     -d '{
       "model": "glm-z1-air",
       "messages": [
         {
           "role": "system",
           "content": "你是一个擅长创作潮流剧集剧本的 AI，生成覆盖角色对白、场景转换与情节冲突设计等多类型创作需求的剧本内容，支持连续剧集剧情结构与情感的衔接，且能紧密结合当下热点、流行趋势和社会关注。"
         },
         {
           "role": "user",
           "content": "创作一个围绕当代年轻人创业与情感纠葛的剧集剧本开篇，包含第一集和第二集的内容，要体现当下年轻人对梦想的追求、创业的艰辛，以及复杂的情感关系，可结合2024 - 2025年的热点元素。"
         }
       ],
       "max_tokens": 4096,
       "temperature": 0.7
     }'

流式调用

curl -X POST "https://open.bigmodel.cn/api/paas/v4/chat/completions" \
     -H "Authorization: Bearer your-api-key" \
     -H "Content-Type: application/json" \
     -d '{
       "model": "glm-z1-air",
       "messages": [
         {
           "role": "system",
           "content": "你是一个擅长创作潮流剧集剧本的AI，生成覆盖角色对白、场景转换与情节冲突设计等多类型创作需求的剧本内容，支持连续剧集剧情结构与情感的衔接，且能紧密结合当下热点、流行趋势和社会关注。"
         },
         {
           "role": "user",
           "content": "创作一个围绕当代年轻人创业与情感纠葛的剧集剧本开篇，包含第一集和第二集的内容，要体现当下年轻人对梦想的追求、创业的艰辛，以及复杂的情感关系，可结合2024 - 2025年的热点元素。"
         }
       ],
       "max_tokens": 4096,
       "temperature": 0.7,
       "stream": true
     }'

用户并发权益

API 调用会受到速率限制，当前我们限制的维度是请求并发数量（在途请求任务数量）。不同等级的用户并发保障如下。

GLM-Z1-Air
GLM-Z1-AirX
GLM-Z1-FlashX
GLM-Z1-Flash

V0	V1	V2	V3
30	40	50	60

开始使用

模型介绍

模型能力

模型工具

智能体

平台服务

概览

定位

价格

输入模态

输出模态

上下文窗口

最大输出 Tokens

能力支持

内置深度思考

流式输出

Function Call

上下文缓存

结构化输出

MCP

推荐场景

使用资源

详细介绍

调用示例

用户并发权益

开始使用

模型介绍

模型能力

模型工具

智能体

平台服务

​ 概览

定位

价格

输入模态

输出模态

上下文窗口

最大输出 Tokens

​ 能力支持

内置深度思考

流式输出

Function Call

上下文缓存

结构化输出

MCP

​ 推荐场景

​ 使用资源

​ 详细介绍

​ 调用示例

​ 用户并发权益

概览

能力支持

推荐场景

使用资源

详细介绍

调用示例

用户并发权益