Documentation Index
Fetch the complete documentation index at: https://docs.bigmodel.cn/llms.txt
Use this file to discover all available pages before exploring further.
概览
GLM-5.1-HighSpeed 是智谱旗舰模型 GLM-5.1 的高速版本。通过在推理引擎、调度系统与底层基础设施三个层面的系统级优化,模型输出速度达到 400 tokens/s,刷新当前全球大模型厂商 API 的速度上限。同时,这也是国产大模型首次将旗舰级能力与极低延迟同时带入生产环境,打破了响应速度与模型质量不可兼得的局限。
GLM-5.1-HighSpeed 模型仅面向智谱 BigModel 开放平台部分企业客户定向开放。
能力支持
Function Call
强大的工具调用能力,支持多种外部工具集成
结构化输出
支持 JSON 等结构化格式输出,便于系统集成
MCP
可灵活调用外部 MCP 工具与数据源,扩展应用场景
推荐场景
对响应延迟要求极高的场景。
面向 Coding Agent、多轮代码生成与大型工程重构场景,显著降低长链路任务等待时间,实现代码、接口与调用链的实时生成与协同修改。
支持游戏生成、实时 UI 构建与动态内容反馈等低延迟交互场景,让模型能够随用户输入即时响应并持续改变系统状态与界面。
适用于实时数据分析、运营问答与多 Agent 并行推演等场景,可快速完成信息汇总、策略生成与多维度方案比对,提升决策效率。
在语音助手、实时客服与 AI 陪练等场景中,可在语音识别与合成链路中快速完成理解与回复生成,带来更加自然流畅的实时交互体验。
详细介绍
高速旗舰模型:面向实时 Coding 与 Agent 交互
GLM-5.1-HighSpeed 是在完整保留 GLM-5.1 综合能力与 Coding 能力的基础上,面向低延迟、高响应场景优化的高速版本,适用于 Coding Agent、交互式应用生成、实时工具调用等对响应速度敏感的任务。
在 Coding Agent 场景中,复杂任务通常需要经过多轮模型调用,单轮延迟会被持续放大,直接影响整体执行效率。GLM-5.1-HighSpeed 在完整保留 GLM-5.1 能力的基础上,第一次拥有“即问即答”的响应速度,模型开始真正成为一个可以实时协作的伙伴。GLM-5.1 高速版与GLM-5.1 普通版速度与效果对比 30 秒完成复杂网页
Agent 集群多人格并行应答
这类能力不仅提升单次代码生成速度,也为更高频的人机交互、更连续的 Agent 执行,以及动态生成工具、界面和交互逻辑等新型应用形态提供了基础。 实测 1:代码生成与方案修改
实测 2:瞬时建模
实测 3:实时“按需生成”交互
TileRT 高性能推理引擎
GLM-5.1 高速版 API “GLM-5.1-highspeed” 由智谱 GLM 团队与 TileRT 团队联合打造,在推理引擎、调度系统与底层基础设施三个层面进行了系统级优化:
- 推理引擎层:针对 GLM-5.1 的架构特点,重写了核心推理路径,有效提升了单卡吞吐能力;
- 调度系统层:通过动态批处理、请求合并和 KV 缓存调度优化,显著降低高并发场景下的尾延迟;
- 基础设施层:围绕推理集群部署、网络链路、负载均衡进行协同优化,确保 400 TPS 不是一个“峰值”数字,而是稳定可用的生产级能力。
完整技术 blog
调用示例
以下是完整的调用示例,帮助您快速上手 GLM-5.1-HighSpeed 模型。
cURL
Python
Java
Python(旧)
基础调用curl -X POST "https://open.bigmodel.cn/api/paas/v4/chat/completions" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer your-api-key" \
-d '{
"model": "glm-5.1-highspeed
",
"messages": [
{
"role": "user",
"content": "作为一名营销专家,请为我的产品创作一个吸引人的口号"
},
{
"role": "assistant",
"content": "当然,要创作一个吸引人的口号,请告诉我一些关于您产品的信息"
},
{
"role": "user",
"content": "智谱AI 开放平台"
}
],
"thinking": {
"type": "enabled"
},
"max_tokens": 65536,
"temperature": 1.0
}'
流式调用curl -X POST "https://open.bigmodel.cn/api/paas/v4/chat/completions" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer your-api-key" \
-d '{
"model": "glm-5.1-highspeed",
"messages": [
{
"role": "user",
"content": "作为一名营销专家,请为我的产品创作一个吸引人的口号"
},
{
"role": "assistant",
"content": "当然,要创作一个吸引人的口号,请告诉我一些关于您产品的信息"
},
{
"role": "user",
"content": "智谱开放平台"
}
],
"thinking": {
"type": "enabled"
},
"stream": true,
"max_tokens": 65536,
"temperature": 1.0
}'
安装 SDK# 安装最新版本
pip install zai-sdk
# 或指定版本
pip install zai-sdk==0.2.2
验证安装import zai
print(zai.__version__)
基础调用from zai import ZhipuAiClient
client = ZhipuAiClient(api_key="your-api-key") # 请填写您自己的 API Key
response = client.chat.completions.create(
model="glm-5.1-highspeed",
messages=[
{"role": "user", "content": "作为一名营销专家,请为我的产品创作一个吸引人的口号"},
{"role": "assistant", "content": "当然,要创作一个吸引人的口号,请告诉我一些关于您产品的信息"},
{"role": "user", "content": "智谱开放平台"}
],
thinking={
"type": "enabled", # 启用深度思考模式
},
max_tokens=65536, # 最大输出 tokens
temperature=1.0 # 控制输出的随机性
)
# 获取完整回复
print(response.choices[0].message)
流式调用from zai import ZhipuAiClient
client = ZhipuAiClient(api_key="your-api-key") # 请填写您自己的 API Key
response = client.chat.completions.create(
model="glm-5.1-highspeed",
messages=[
{"role": "user", "content": "作为一名营销专家,请为我的产品创作一个吸引人的口号"},
{"role": "assistant", "content": "当然,要创作一个吸引人的口号,请告诉我一些关于您产品的信息"},
{"role": "user", "content": "智谱开放平台"}
],
thinking={
"type": "enabled", # 启用深度思考模式
},
stream=True, # 启用流式输出
max_tokens=65536, # 最大输出tokens
temperature=1.0 # 控制输出的随机性
)
# 流式获取回复
for chunk in response:
if chunk.choices[0].delta.reasoning_content:
print(chunk.choices[0].delta.reasoning_content, end='', flush=True)
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end='', flush=True)
安装 SDKMaven<dependency>
<groupId>ai.z.openapi</groupId>
<artifactId>zai-sdk</artifactId>
<version>0.3.3</version>
</dependency>
Gradle (Groovy)implementation 'ai.z.openapi:zai-sdk:0.3.3'
基础调用import ai.z.openapi.ZhipuAiClient;
import ai.z.openapi.service.model.ChatCompletionCreateParams;
import ai.z.openapi.service.model.ChatCompletionResponse;
import ai.z.openapi.service.model.ChatMessage;
import ai.z.openapi.service.model.ChatMessageRole;
import ai.z.openapi.service.model.ChatThinking;
import java.util.Arrays;
public class BasicChat {
public static void main(String[] args) {
// 初始化客户端
ZhipuAiClient client = ZhipuAiClient.builder().ofZHIPU()
.apiKey("your-api-key")
.build();
// 创建聊天完成请求
ChatCompletionCreateParams request = ChatCompletionCreateParams.builder()
.model("glm-5.1-highspeed")
.messages(Arrays.asList(
ChatMessage.builder()
.role(ChatMessageRole.USER.value())
.content("作为一名营销专家,请为我的产品创作一个吸引人的口号")
.build(),
ChatMessage.builder()
.role(ChatMessageRole.ASSISTANT.value())
.content("当然,要创作一个吸引人的口号,请告诉我一些关于您产品的信息")
.build(),
ChatMessage.builder()
.role(ChatMessageRole.USER.value())
.content("智谱开放平台")
.build()
))
.thinking(ChatThinking.builder().type("enabled").build())
.maxTokens(65536)
.temperature(1.0f)
.build();
// 发送请求
ChatCompletionResponse response = client.chat().createChatCompletion(request);
// 获取回复
if (response.isSuccess()) {
Object reply = response.getData().getChoices().get(0).getMessage();
System.out.println("AI 回复: " + reply);
} else {
System.err.println("错误: " + response.getMsg());
}
}
}
流式调用import ai.z.openapi.ZhipuAiClient;
import ai.z.openapi.service.model.ChatCompletionCreateParams;
import ai.z.openapi.service.model.ChatCompletionResponse;
import ai.z.openapi.service.model.ChatMessage;
import ai.z.openapi.service.model.ChatMessageRole;
import ai.z.openapi.service.model.ChatThinking;
import ai.z.openapi.service.model.Delta;
import java.util.Arrays;
public class StreamingChat {
public static void main(String[] args) {
// 初始化客户端
ZhipuAiClient client = ZhipuAiClient.builder().ofZHIPU()
.apiKey("your-api-key")
.build();
// 创建流式聊天完成请求
ChatCompletionCreateParams request = ChatCompletionCreateParams.builder()
.model("glm-5.1-highspeed")
.messages(Arrays.asList(
ChatMessage.builder()
.role(ChatMessageRole.USER.value())
.content("作为一名营销专家,请为我的产品创作一个吸引人的口号")
.build(),
ChatMessage.builder()
.role(ChatMessageRole.ASSISTANT.value())
.content("当然,要创作一个吸引人的口号,请告诉我一些关于您产品的信息")
.build(),
ChatMessage.builder()
.role(ChatMessageRole.USER.value())
.content("智谱开放平台")
.build()
))
.thinking(ChatThinking.builder().type("enabled").build())
.stream(true) // 启用流式输出
.maxTokens(65536)
.temperature(1.0f)
.build();
ChatCompletionResponse response = client.chat().createChatCompletion(request);
if (response.isSuccess()) {
response.getFlowable().subscribe(
// Process streaming message data
data -> {
if (data.getChoices() != null && !data.getChoices().isEmpty()) {
Delta delta = data.getChoices().get(0).getDelta();
System.out.print(delta + "\n");
}
},
// Process streaming response error
error -> System.err.println("\nStream error: " + error.getMessage()),
// Process streaming response completion event
() -> System.out.println("\nStreaming response completed")
);
} else {
System.err.println("Error: " + response.getMsg());
}
}
}
更新 SDK 至 2.1.5.20250726# 安装最新版本
pip install zhipuai
# 或指定版本
pip install zhipuai==2.1.5.20250726
基础调用from zhipuai import ZhipuAI
client = ZhipuAI(api_key="your-api-key") # 请填写您自己的 API Key
response = client.chat.completions.create(
model="glm-5.1-highspeed",
messages=[
{"role": "user", "content": "作为一名营销专家,请为我的产品创作一个吸引人的口号"},
{"role": "assistant", "content": "当然,要创作一个吸引人的口号,请告诉我一些关于您产品的信息"},
{"role": "user", "content": "智谱开放平台"}
],
thinking={
"type": "enabled",
},
max_tokens=65536,
temperature=1.0
)
# 获取完整回复
print(response.choices[0].message)
流式调用from zhipuai import ZhipuAI
client = ZhipuAI(api_key="your-api-key") # 请填写您自己的 API Key
response = client.chat.completions.create(
model="glm-5.1-highspeed",
messages=[
{"role": "user", "content": "作为一名营销专家,请为我的产品创作一个吸引人的口号"},
{"role": "assistant", "content": "当然,要创作一个吸引人的口号,请告诉我一些关于您产品的信息"},
{"role": "user", "content": "智谱开放平台"}
],
thinking={
"type": "enabled",
},
stream=True, # 启用流式输出
max_tokens=65536,
temperature=1.0
)
# 流式获取回复
for chunk in response:
if chunk.choices[0].delta.reasoning_content:
print(chunk.choices[0].delta.reasoning_content, end='', flush=True)
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end='', flush=True)