Skip to main content

Documentation Index

Fetch the complete documentation index at: https://docs.bigmodel.cn/llms.txt

Use this file to discover all available pages before exploring further.

概览

GLM-5.1-HighSpeed 是智谱旗舰模型 GLM-5.1 的高速版本。通过在推理引擎、调度系统与底层基础设施三个层面的系统级优化,模型输出速度达到 400 tokens/s,刷新当前全球大模型厂商 API 的速度上限。同时,这也是国产大模型首次将旗舰级能力与极低延迟同时带入生产环境,打破了响应速度与模型质量不可兼得的局限。
GLM-5.1-HighSpeed 模型仅面向智谱 BigModel 开放平台部分企业客户定向开放。

定位

高速旗舰模型

输入模态

文本

输出模态

文本

上下文窗口

200K

最大输出 Tokens

128K

能力支持

思考模式

提供多种思考模式,覆盖不同任务需求

流式输出

支持实时流式响应,提升用户交互体验

Function Call

强大的工具调用能力,支持多种外部工具集成

上下文缓存

智能缓存机制,优化长对话性能

结构化输出

支持 JSON 等结构化格式输出,便于系统集成

MCP

可灵活调用外部 MCP 工具与数据源,扩展应用场景

推荐场景

对响应延迟要求极高的场景。
面向 Coding Agent、多轮代码生成与大型工程重构场景,显著降低长链路任务等待时间,实现代码、接口与调用链的实时生成与协同修改。
支持游戏生成、实时 UI 构建与动态内容反馈等低延迟交互场景,让模型能够随用户输入即时响应并持续改变系统状态与界面。
适用于实时数据分析、运营问答与多 Agent 并行推演等场景,可快速完成信息汇总、策略生成与多维度方案比对,提升决策效率。
在语音助手、实时客服与 AI 陪练等场景中,可在语音识别与合成链路中快速完成理解与回复生成,带来更加自然流畅的实时交互体验。

详细介绍

1

高速旗舰模型:面向实时 Coding 与 Agent 交互

GLM-5.1-HighSpeed 是在完整保留 GLM-5.1 综合能力与 Coding 能力的基础上,面向低延迟、高响应场景优化的高速版本,适用于 Coding Agent、交互式应用生成、实时工具调用等对响应速度敏感的任务。Description在 Coding Agent 场景中,复杂任务通常需要经过多轮模型调用,单轮延迟会被持续放大,直接影响整体执行效率。GLM-5.1-HighSpeed 在完整保留 GLM-5.1 能力的基础上,第一次拥有“即问即答”的响应速度,模型开始真正成为一个可以实时协作的伙伴。GLM-5.1 高速版与GLM-5.1 普通版速度与效果对比
这类能力不仅提升单次代码生成速度,也为更高频的人机交互、更连续的 Agent 执行,以及动态生成工具、界面和交互逻辑等新型应用形态提供了基础。
2

TileRT 高性能推理引擎

GLM-5.1 高速版 API “GLM-5.1-highspeed” 由智谱 GLM 团队与 TileRT 团队联合打造,在推理引擎、调度系统与底层基础设施三个层面进行了系统级优化:
  • 推理引擎层:针对 GLM-5.1 的架构特点,重写了核心推理路径,有效提升了单卡吞吐能力;
  • 调度系统层:通过动态批处理、请求合并和 KV 缓存调度优化,显著降低高并发场景下的尾延迟;
  • 基础设施层:围绕推理集群部署、网络链路、负载均衡进行协同优化,确保 400 TPS 不是一个“峰值”数字,而是稳定可用的生产级能力。
完整技术 blog

调用示例

以下是完整的调用示例,帮助您快速上手 GLM-5.1-HighSpeed 模型。
基础调用
curl -X POST "https://open.bigmodel.cn/api/paas/v4/chat/completions" \
    -H "Content-Type: application/json" \
    -H "Authorization: Bearer your-api-key" \
    -d '{
        "model": "glm-5.1-highspeed
",
        "messages": [
            {
                "role": "user",
                "content": "作为一名营销专家,请为我的产品创作一个吸引人的口号"
            },
            {
                "role": "assistant",
                "content": "当然,要创作一个吸引人的口号,请告诉我一些关于您产品的信息"
            },
            {
                "role": "user",
                "content": "智谱AI 开放平台"
            }
        ],
        "thinking": {
            "type": "enabled"
        },
        "max_tokens": 65536,
        "temperature": 1.0
    }'
流式调用
curl -X POST "https://open.bigmodel.cn/api/paas/v4/chat/completions" \
    -H "Content-Type: application/json" \
    -H "Authorization: Bearer your-api-key" \
    -d '{
        "model": "glm-5.1-highspeed",
        "messages": [
            {
                "role": "user",
                "content": "作为一名营销专家,请为我的产品创作一个吸引人的口号"
            },
            {
                "role": "assistant",
                "content": "当然,要创作一个吸引人的口号,请告诉我一些关于您产品的信息"
            },
            {
                "role": "user",
                "content": "智谱开放平台"
            }
        ],
        "thinking": {
            "type": "enabled"
        },
        "stream": true,
        "max_tokens": 65536,
        "temperature": 1.0
    }'