GLM-5.1-HighSpeed

概览

GLM-5.1-HighSpeed 是智谱旗舰模型 GLM-5.1 的高速版本。通过在推理引擎、调度系统与底层基础设施三个层面的系统级优化，模型输出速度达到 400 tokens/s，刷新当前全球大模型厂商 API 的速度上限。同时，这也是国产大模型首次将旗舰级能力与极低延迟同时带入生产环境，打破了响应速度与模型质量不可兼得的局限。

GLM-5.1-HighSpeed 模型仅面向智谱 BigModel 开放平台部分企业客户定向开放。

定位

高速旗舰模型

输入模态

文本

输出模态

文本

上下文窗口

200K

最大输出 Tokens

128K

能力支持

思考模式

提供多种思考模式，覆盖不同任务需求

流式输出

支持实时流式响应，提升用户交互体验

Function Call

强大的工具调用能力，支持多种外部工具集成

上下文缓存

智能缓存机制，优化长对话性能

结构化输出

支持 JSON 等结构化格式输出，便于系统集成

MCP

可灵活调用外部 MCP 工具与数据源，扩展应用场景

详细介绍

高速旗舰模型：面向实时 Coding 与 Agent 交互

GLM-5.1-HighSpeed 是在完整保留 GLM-5.1 综合能力与 Coding 能力的基础上，面向低延迟、高响应场景优化的高速版本，适用于 Coding Agent、交互式应用生成、实时工具调用等对响应速度敏感的任务。 Description

在 Coding Agent 场景中，复杂任务通常需要经过多轮模型调用，单轮延迟会被持续放大，直接影响整体执行效率。GLM-5.1-HighSpeed 在完整保留 GLM-5.1 能力的基础上，第一次拥有“即问即答”的响应速度，模型开始真正成为一个可以实时协作的伙伴。GLM-5.1 高速版与GLM-5.1 普通版速度与效果对比

30 秒完成复杂网页
Agent 集群多人格并行应答

这类能力不仅提升单次代码生成速度，也为更高频的人机交互、更连续的 Agent 执行，以及动态生成工具、界面和交互逻辑等新型应用形态提供了基础。

实测 1：代码生成与方案修改
实测 2：瞬时建模
实测 3：实时“按需生成”交互

TileRT 高性能推理引擎

GLM-5.1 高速版 API “GLM-5.1-highspeed” 由智谱 GLM 团队与 TileRT 团队联合打造，在推理引擎、调度系统与底层基础设施三个层面进行了系统级优化：

推理引擎层：针对 GLM-5.1 的架构特点，重写了核心推理路径，有效提升了单卡吞吐能力；
调度系统层：通过动态批处理、请求合并和 KV 缓存调度优化，显著降低高并发场景下的尾延迟；
基础设施层：围绕推理集群部署、网络链路、负载均衡进行协同优化，确保 400 TPS 不是一个“峰值”数字，而是稳定可用的生产级能力。

完整技术 blog

调用示例

以下是完整的调用示例，帮助您快速上手 GLM-5.1-HighSpeed 模型。

cURL
Python
Java
Python(旧)

基础调用

curl -X POST "https://open.bigmodel.cn/api/paas/v4/chat/completions" \
    -H "Content-Type: application/json" \
    -H "Authorization: Bearer your-api-key" \
    -d '{
        "model": "glm-5.1-highspeed
",
        "messages": [
            {
                "role": "user",
                "content": "作为一名营销专家，请为我的产品创作一个吸引人的口号"
            },
            {
                "role": "assistant",
                "content": "当然，要创作一个吸引人的口号，请告诉我一些关于您产品的信息"
            },
            {
                "role": "user",
                "content": "智谱AI 开放平台"
            }
        ],
        "thinking": {
            "type": "enabled"
        },
        "max_tokens": 65536,
        "temperature": 1.0
    }'

流式调用

curl -X POST "https://open.bigmodel.cn/api/paas/v4/chat/completions" \
    -H "Content-Type: application/json" \
    -H "Authorization: Bearer your-api-key" \
    -d '{
        "model": "glm-5.1-highspeed",
        "messages": [
            {
                "role": "user",
                "content": "作为一名营销专家，请为我的产品创作一个吸引人的口号"
            },
            {
                "role": "assistant",
                "content": "当然，要创作一个吸引人的口号，请告诉我一些关于您产品的信息"
            },
            {
                "role": "user",
                "content": "智谱开放平台"
            }
        ],
        "thinking": {
            "type": "enabled"
        },
        "stream": true,
        "max_tokens": 65536,
        "temperature": 1.0
    }'

安装 SDK

# 安装最新版本
pip install zai-sdk
# 或指定版本
pip install zai-sdk==0.2.2

验证安装

import zai
print(zai.__version__)

基础调用

from zai import ZhipuAiClient

client = ZhipuAiClient(api_key="your-api-key")  # 请填写您自己的 API Key

response = client.chat.completions.create(
    model="glm-5.1-highspeed",
    messages=[
        {"role": "user", "content": "作为一名营销专家，请为我的产品创作一个吸引人的口号"},
        {"role": "assistant", "content": "当然，要创作一个吸引人的口号，请告诉我一些关于您产品的信息"},
        {"role": "user", "content": "智谱开放平台"}
    ],
    thinking={
        "type": "enabled",    # 启用深度思考模式
    },
    max_tokens=65536,          # 最大输出 tokens
    temperature=1.0           # 控制输出的随机性
)

# 获取完整回复
print(response.choices[0].message)

流式调用

from zai import ZhipuAiClient

client = ZhipuAiClient(api_key="your-api-key")  # 请填写您自己的 API Key

response = client.chat.completions.create(
    model="glm-5.1-highspeed",
    messages=[
        {"role": "user", "content": "作为一名营销专家，请为我的产品创作一个吸引人的口号"},
        {"role": "assistant", "content": "当然，要创作一个吸引人的口号，请告诉我一些关于您产品的信息"},
        {"role": "user", "content": "智谱开放平台"}
    ],
    thinking={
        "type": "enabled",    # 启用深度思考模式
    },
    stream=True,              # 启用流式输出
    max_tokens=65536,          # 最大输出tokens
    temperature=1.0           # 控制输出的随机性
)

# 流式获取回复
for chunk in response:
    if chunk.choices[0].delta.reasoning_content:
        print(chunk.choices[0].delta.reasoning_content, end='', flush=True)

    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end='', flush=True)

安装 SDKMaven

<dependency>
    <groupId>ai.z.openapi</groupId>
    <artifactId>zai-sdk</artifactId>
    <version>0.3.3</version>
</dependency>

Gradle (Groovy)

implementation 'ai.z.openapi:zai-sdk:0.3.3'

基础调用

import ai.z.openapi.ZhipuAiClient;
import ai.z.openapi.service.model.ChatCompletionCreateParams;
import ai.z.openapi.service.model.ChatCompletionResponse;
import ai.z.openapi.service.model.ChatMessage;
import ai.z.openapi.service.model.ChatMessageRole;
import ai.z.openapi.service.model.ChatThinking;
import java.util.Arrays;

public class BasicChat {
    public static void main(String[] args) {
        // 初始化客户端
        ZhipuAiClient client = ZhipuAiClient.builder().ofZHIPU()
            .apiKey("your-api-key")
            .build();

        // 创建聊天完成请求
        ChatCompletionCreateParams request = ChatCompletionCreateParams.builder()
            .model("glm-5.1-highspeed")
            .messages(Arrays.asList(
                ChatMessage.builder()
                    .role(ChatMessageRole.USER.value())
                    .content("作为一名营销专家，请为我的产品创作一个吸引人的口号")
                    .build(),
                ChatMessage.builder()
                    .role(ChatMessageRole.ASSISTANT.value())
                    .content("当然，要创作一个吸引人的口号，请告诉我一些关于您产品的信息")
                    .build(),
                ChatMessage.builder()
                    .role(ChatMessageRole.USER.value())
                    .content("智谱开放平台")
                    .build()
            ))
            .thinking(ChatThinking.builder().type("enabled").build())
            .maxTokens(65536)
            .temperature(1.0f)
            .build();

        // 发送请求
        ChatCompletionResponse response = client.chat().createChatCompletion(request);

        // 获取回复
        if (response.isSuccess()) {
            Object reply = response.getData().getChoices().get(0).getMessage();
            System.out.println("AI 回复: " + reply);
        } else {
            System.err.println("错误: " + response.getMsg());
        }
    }
}

流式调用

import ai.z.openapi.ZhipuAiClient;
import ai.z.openapi.service.model.ChatCompletionCreateParams;
import ai.z.openapi.service.model.ChatCompletionResponse;
import ai.z.openapi.service.model.ChatMessage;
import ai.z.openapi.service.model.ChatMessageRole;
import ai.z.openapi.service.model.ChatThinking;
import ai.z.openapi.service.model.Delta;
import java.util.Arrays;

public class StreamingChat {
    public static void main(String[] args) {
        // 初始化客户端
        ZhipuAiClient client = ZhipuAiClient.builder().ofZHIPU()
            .apiKey("your-api-key")
            .build();

        // 创建流式聊天完成请求
        ChatCompletionCreateParams request = ChatCompletionCreateParams.builder()
            .model("glm-5.1-highspeed")
            .messages(Arrays.asList(
                ChatMessage.builder()
                    .role(ChatMessageRole.USER.value())
                    .content("作为一名营销专家，请为我的产品创作一个吸引人的口号")
                    .build(),
                ChatMessage.builder()
                    .role(ChatMessageRole.ASSISTANT.value())
                    .content("当然，要创作一个吸引人的口号，请告诉我一些关于您产品的信息")
                    .build(),
                ChatMessage.builder()
                    .role(ChatMessageRole.USER.value())
                    .content("智谱开放平台")
                    .build()
            ))
            .thinking(ChatThinking.builder().type("enabled").build())
            .stream(true)  // 启用流式输出
            .maxTokens(65536)
            .temperature(1.0f)
            .build();

        ChatCompletionResponse response = client.chat().createChatCompletion(request);

        if (response.isSuccess()) {
            response.getFlowable().subscribe(
                // Process streaming message data
                data -> {
                    if (data.getChoices() != null && !data.getChoices().isEmpty()) {
                        Delta delta = data.getChoices().get(0).getDelta();
                        System.out.print(delta + "\n");
                    }
                },
                // Process streaming response error
                error -> System.err.println("\nStream error: " + error.getMessage()),
                // Process streaming response completion event
                () -> System.out.println("\nStreaming response completed")
            );
        } else {
            System.err.println("Error: " + response.getMsg());
        }
    }
}

更新 SDK 至 2.1.5.20250726

# 安装最新版本
pip install zhipuai

# 或指定版本
pip install zhipuai==2.1.5.20250726

基础调用

from zhipuai import ZhipuAI

client = ZhipuAI(api_key="your-api-key")  # 请填写您自己的 API Key

response = client.chat.completions.create(
    model="glm-5.1-highspeed",
    messages=[
        {"role": "user", "content": "作为一名营销专家，请为我的产品创作一个吸引人的口号"},
        {"role": "assistant", "content": "当然，要创作一个吸引人的口号，请告诉我一些关于您产品的信息"},
        {"role": "user", "content": "智谱开放平台"}
    ],
    thinking={
        "type": "enabled",
    },
    max_tokens=65536,
    temperature=1.0
)

# 获取完整回复
print(response.choices[0].message)

流式调用

from zhipuai import ZhipuAI

client = ZhipuAI(api_key="your-api-key")  # 请填写您自己的 API Key

response = client.chat.completions.create(
    model="glm-5.1-highspeed",
    messages=[
        {"role": "user", "content": "作为一名营销专家，请为我的产品创作一个吸引人的口号"},
        {"role": "assistant", "content": "当然，要创作一个吸引人的口号，请告诉我一些关于您产品的信息"},
        {"role": "user", "content": "智谱开放平台"}
    ],
    thinking={
        "type": "enabled",
    },
    stream=True,              # 启用流式输出
    max_tokens=65536,
    temperature=1.0
)

# 流式获取回复
for chunk in response:
    if chunk.choices[0].delta.reasoning_content:
        print(chunk.choices[0].delta.reasoning_content, end='', flush=True)

    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end='', flush=True)

开始使用

模型介绍

模型能力

模型工具

GLM 全模态知识库

智能体

平台服务

概览

定位

输入模态

输出模态

上下文窗口

最大输出 Tokens

能力支持

思考模式

流式输出

Function Call

上下文缓存

结构化输出

MCP

推荐场景

详细介绍

高速旗舰模型：面向实时 Coding 与 Agent 交互

TileRT 高性能推理引擎

调用示例

开始使用

模型介绍

模型能力

模型工具

GLM 全模态知识库

智能体

平台服务

Documentation Index

​ 概览

定位

输入模态

输出模态

上下文窗口

最大输出 Tokens

​ 能力支持

思考模式

流式输出

Function Call

上下文缓存

结构化输出

MCP

​ 推荐场景

​ 详细介绍

高速旗舰模型：面向实时 Coding 与 Agent 交互

TileRT 高性能推理引擎

​ 调用示例

概览

能力支持

推荐场景

详细介绍

调用示例