模型概览 - 智谱AI开放文档

GLM-5.1

最新旗舰模型

开源 SOTA 能力
长程任务显著提升

GLM-5V-Turbo

多模态 Coding 模型

兼顾视觉与 Coding 能力
多模态工具链进一步扩展

GLM-Image

图像生成模型

文字渲染开源 SOTA
支持多分辨率

模型一览

若需要看模型价格，请直接前往价格页面。

文本模型

文本模型是一类专注于处理和生成自然语言的模型，涵盖了语言理解与推理能力，能够自动处理海量文本数据并进行逻辑推导。智谱的文本模型结合了强大的语言模型和推理模型，使得系统不仅能理解和生成文本内容，还能进行高层次的推理和判断。

模型	定位	特点	上下文	最大输出
GLM-5.1	最新旗舰	- Coding 能力对齐 Claude Opus 4.6 - 长程任务显著提升，可自主工作长达 8 小时	200K	128K
GLM-5	高智能基座	- 编程能力对齐Claude Opus 4.5 - 擅长 Agentic 长程规划与执行	200K	128K
GLM-5-Turbo	龙虾增强基座	- 龙虾任务核心需求专项优化 - 复杂长任务执行连续性好	200K	128K
GLM-4.7	高智能模型	- 通用对话、推理与智能体能力上实现全面升级 - 编程更强、更稳、审美更好	200K	128K
GLM-4.7-FlashX	轻量高速	- 小尺寸，强能力 - 适用于中文写作、翻译、长文本、情感/角色扮演等通用场景	200K	128K
GLM-4.6	超强性能	- 上下文提升至200K - 高级编码能力、强大推理以及工具调用能力	200K	128K
GLM-4.5-Air	高性价比	- 在推理、编码和智能体任务上表现强劲	128K	96K
GLM-4.5-AirX	高性价比-极速版	- 推理速度快，且价格适中 - 适用于时效性有较强要求的场景	128K	96K
GLM-4-Long	超长输入	- 支持高达 1M 的上下文长度 - 能够理解和回应复杂的查询 - 为处理超长文本和记忆型任务设计	1M	4K
GLM-4-FlashX-250414	高速低价	- Flash 增强版本 - 超快推理速度 - 更高并发保障	128K	16K
GLM-4.7-Flash	免费模型	- 最新基座模型的普惠版本	200K	128K
GLM-4.5-Flash （即将下线）	免费模型	- 支持深度思考模式 - 支持最长 128K 的上下文处理	128K	96K
GLM-4-Flash-250414	免费模型	- 超长上下文处理能力 - 多语言支持 - 支持外部工具调用	128K	16K

视觉模型

视觉模型是一类能处理图像或视频等视觉信息的模型，广泛应用于识别、分析与决策任务。其中，视觉理解模型侧重于看懂图像内容，如识别物体、场景和关系；而视觉推理模型进一步具备看图思考的能力，能结合视觉与语言信息完成逻辑判断、因果分析和多步推理，常用于图文问答、图像描述生成、多模态对齐等复杂任务。

模型	定位	特点	上下文	最大输出
GLM-5V-Turbo	多模态 Coding 基座	- 兼顾视觉理解与 Coding 能力 - 复杂视觉推理更准确 - 超长上下文 - 深度适配 Agent 工作流	200K	128K
GLM-4.6V	视觉推理	- 视觉推理能力 - 原生支持工具调用 - 长上下文 - 前端代码复刻效果提升	128K	32K
GLM-OCR	轻量图文解析	- 性能SOTA - 高精度、高效率 - 支持多种常见复杂文档解析	输入: - 单图 ≤ 10 MB，PDF ≤ 50 MB - 最大支持100页	/
AutoGLM-Phone	手机智能助理框架	- 支持用自然语言自动完成 App 操作任务 - 支持完整操作指令集	20K	2048
GLM-4.1V-Thinking-FlashX	轻量视觉推理	- 视觉推理能力 - 复杂场景理解 - 多步骤分析 - 高并发	64K	16K
GLM-4.6V-Flash	免费模型	- 视觉推理能力 - 支持工具调用 - 可灵活开关思考模式	128K	32K
GLM-4.1V-Thinking-Flash	免费模型	- 视觉推理能力 - 复杂场景理解 - 多步骤分析	64K	16K
GLM-4V-Flash	免费模型	- 图像理解 - 多语言支持	16K	1K

图像生成模型

图像生成模型是一类通过学习海量图像数据，实现从文本生成高质量图片的模型，广泛应用于视觉内容创作、游戏美术、产品设计、医学影像合成等领域。

模型	定位	特点	多分辨率
GLM-Image	旗舰图像生成	- 在复杂指令遵循与知识密集场景上更强 - 文字渲染开源 SOTA，汉字尤其出色	支持
CogView-4	图像生成	- 高质量图像生成 - 风格多样化 - 细节丰富	支持
CogView-3-Flash	免费模型	- 创意丰富多样 - 推理速度快	支持

视频生成模型

视频生成模型是一类通过学习时序视觉数据，从文本、图像或其他视频素材生成动态视频内容的模型，广泛应用于影视制作、虚拟人、动画生成、数字营销等领域。

模型	定位	特点	多模态支持	多分辨率
CogVideoX-3	高智能旗舰	- 主观清晰度大幅提升 - 更好的指令遵循、物理真实模拟 - 现实、3D风格场景表现提升 - 新增首尾帧生成功能	图像、文本、首尾帧	支持
Vidu Q1	质量较优	- 影视级的画质清晰度 - 精准解决画面崩坏 - 多艺术形态的风格 - 行业标杆级转场流畅度	图像、文本、首尾帧	不支持
Vidu 2	高速低价	- 速度优、性价比优 - 语义增强的首尾帧衔接 - 多参考图的一致性强化	图像、参考、首尾帧	不支持
CogVideoX-Flash	免费模型	- 沉浸式AI音效 - 4K 高清画质呈现 - 10 秒视频时长拓展 - 60fps 高帧率输出	图像、文本	支持

音视频模型

音视频模型是一类处理音频与视频信号的多模态模型，能够理解、生成或编辑视听内容，广泛应用于虚拟人、语音驱动动画、视频配音与剪辑、跨模态检索等场景。

模型	定位	特点	多模态支持
GLM-TTS	语音合成模型	- 超拟人语音合成，情感表达增强 - 非流式与流式接口	文本
GLM-TTS-Clone	音色克隆模型	- 3秒音频即可生成音色 - 支持普通话及轻口音 - 细腻的情感表达	文本、音频
GLM-ASR-2512	语音识别	- 字符错误率（CER）仅为 0.0717 - 支持用户自定义词汇 - 支持多种主流语言和方言	音频
GLM-Realtime	实时音视频	- 能够提供实时的视频通话功能，通话记忆时长长达2分钟 - 具有跨文本、音频和视频进行实时推理的能力	视频、音频、文本
GLM-4-Voice	语音模型	- 直接理解和生成中英文语音，实现实时语音对话 - 根据用户指令灵活调整语音的情感、语调、语速和方言等特性	文本、音频

向量模型

向量模型用于将高维的离散数据转换为低维的连续向量，捕捉数据的语义特征和关系。您可以使用我们的向量模型构建语义检索增强、聚类、主题建模和分类等功能。

模型	定位	上下文
Embedding-3	V3	8K
Embedding-2	V2	8K

其他模型

模型	定位	特点	上下文	最大输出
CharGLM-4	拟人模型	适用于情感陪伴和虚拟角色	8K	4K
Emohaa	心理模型	具备专业咨询能力，帮助用户理解情感并应对情绪问题	8K	4k
CodeGeeX-4	代码模型	适用于代码自动补全任务	128K	32k
Rerank	重排序模型	计算文本之间的 score 值，对召回结果进行重排序	4K	-

即将弃用模型

我们已经宣布了以下模型的弃用日期。在这些模型弃用后，我们会将它们自动路由至新的模型。请用户注意在弃用日期之前，将您的模型编码更新为最新版本，以确保服务的顺畅过渡。

模型	弃用时间	指向模型
GLM-Z1系列	2025年11月15日	-
GLM-4-0520	2025年12月30日	-

​推荐模型

GLM-5.1

GLM-5V-Turbo

GLM-Image

​模型一览

​文本模型

​视觉模型

​图像生成模型

​视频生成模型

​音视频模型

​向量模型

​其他模型

​即将弃用模型

推荐模型

模型一览

文本模型

视觉模型

图像生成模型

视频生成模型

音视频模型

向量模型

其他模型

即将弃用模型