对话补全

Authorizations

Authorization

string

header

required

使用以下格式进行身份验证：Bearer <your api key>

Body

application/json

文本模型
视觉模型
音频模型
角色模型

普通对话模型请求，支持纯文本对话和工具调用

model

enum<string>

default:glm-4.6

required

调用的普通对话模型代码。GLM-4.6 是最新的旗舰模型系列，专为智能体应用打造的基础模型。GLM-4.6 GLM-4.5 系列提供了复杂推理、超长上下文、极快推理速度等多款模型。

Available options:

glm-4.6,

glm-4.5,

glm-4.5-air,

glm-4.5-x,

glm-4.5-airx,

glm-4.5-flash,

glm-4-plus,

glm-4-air-250414,

glm-4-airx,

glm-4-flashx,

glm-4-flashx-250414

Example:

"glm-4.6"

messages

(用户消息 · object | 系统消息 · object | 助手消息 · object | 工具消息 · object)[]

required

对话消息列表，包含当前对话的完整上下文信息。每条消息都有特定的角色和内容，模型会根据这些消息生成回复。消息按时间顺序排列，支持四种角色：system（系统消息，用于设定AI的行为和角色）、user（用户消息，来自用户的输入）、assistant（助手消息，来自AI的回复）、tool（工具消息，工具调用的结果）。普通对话模型主要支持纯文本内容。注意不能只包含系统消息或助手消息。

Minimum length: 1

用户消息
系统消息
助手消息
工具消息

Hide child attributes

role

enum<string>

default:user

required

消息作者的角色

Available options:

user

content

string

required

文本消息内容

Example:

"What opportunities and challenges will the Chinese large model industry face in 2025?"

stream

boolean

default:false

是否启用流式输出模式。默认值为 false。当设置为 false 时，模型会在生成完整响应后一次性返回所有内容，适合短文本生成和批处理场景。当设置为 true 时，模型会通过Server-Sent Events (SSE)流式返回生成的内容，用户可以实时看到文本生成过程，适合聊天对话和长文本生成场景，能提供更好的用户体验。流式输出结束时会返回 data: [DONE] 消息。

Example:

false

thinking

object

仅 GLM-4.5 及以上模型支持此参数配置. 控制大模型是否开启思维链。

Hide child attributes

thinking.type

enum<string>

default:enabled

是否开启思维链(当开启后 GLM-4.6 GLM-4.5 为模型自动判断是否思考，GLM-4.5V 为强制思考), 默认: enabled.

Available options:

enabled,

disabled

do_sample

boolean

default:true

是否启用采样策略来生成文本。默认值为 true。当设置为 true 时，模型会使用 temperature、top_p 等参数进行随机采样，生成更多样化的输出；当设置为 false 时，模型总是选择概率最高的词汇，生成更确定性的输出，此时 temperature 和 top_p 参数将被忽略。对于需要一致性和可重复性的任务（如代码生成、翻译），建议设置为 false。

Example:

true

temperature

number

default:1

采样温度，控制输出的随机性和创造性，取值范围为 [0.0, 1.0]，限两位小数。对于GLM-4.6系列默认值为 1.0，GLM-4.5系列默认值为 0.6，GLM-4系列默认值为 0.75。较高的值（如0.8）会使输出更随机、更具创造性，适合创意写作和头脑风暴；较低的值（如0.2）会使输出更稳定、更确定，适合事实性问答和代码生成。建议根据应用场景调整 top_p 或 temperature 参数，但不要同时调整两个参数。

Required range: 0 <= x <= 1

Example:

1

top_p

number

default:0.95

核采样（nucleus sampling）参数，是temperature采样的替代方法，取值范围为 (0.0, 1.0]，限两位小数。对于GLM-4.6 GLM-4.5系列默认值为 0.95，GLM-4系列默认值为 0.9。模型只考虑累积概率达到top_p的候选词汇。例如：0.1表示只考虑前10%概率的词汇，0.9表示考虑前90%概率的词汇。较小的值会产生更集中、更一致的输出；较大的值会增加输出的多样性。建议根据应用场景调整 top_p 或 temperature 参数，但不建议同时调整两个参数。

Required range: 0 <= x <= 1

Example:

0.95

max_tokens

integer

模型输出的最大令牌token数量限制。GLM-4.6最大支持128K输出长度，GLM-4.5最大支持96K输出长度，建议设置不小于1024。令牌是文本的基本单位，通常1个令牌约等于0.75个英文单词或1.5个中文字符。设置合适的max_tokens可以控制响应长度和成本，避免过长的输出。如果模型在达到max_tokens限制前完成回答，会自然结束；如果达到限制，输出可能被截断。默认值和最大值等更多详见 max_tokens 文档

Required range: 1 <= x <= 131072

Example:

1024

tool_stream

boolean

default:false

是否开启流式响应Function Calls，仅限GLM-4.6支持此参数，默认值false。参考工具流式输出

Example:

false

tools

模型可以调用的工具列表。支持函数调用、知识库检索和网络搜索。使用此参数提供模型可以生成 JSON 输入的函数列表或配置其他工具。最多支持 128 个函数。目前 GLM-4 系列已支持所有 tools，GLM-4.5 已支持 web search 和 retrieval。

Hide child attributes

type

enum<string>

default:function

required

Available options:

function

function

object

required

Hide child attributes

function.name

string

required

要调用的函数名称。必须是 a-z、A-Z、0-9，或包含下划线和破折号，最大长度为 64。

Required string length: 1 - 64

function.description

string

required

函数功能的描述，供模型选择何时以及如何调用函数。

function.parameters

object

required

使用 JSON Schema 定义的参数。必须传递 JSON Schema 对象以准确定义接受的参数。如果调用函数时不需要参数，则省略。

tool_choice

enum<string>

控制模型如何选择工具。用于控制模型选择调用哪个函数的方式，仅在工具类型为function时补充。默认auto且仅支持auto。

Available options:

auto

stop

string[]

停止词列表，当模型生成的文本中遇到这些指定的字符串时会立即停止生成。目前仅支持单个停止词，格式为["stop_word1"]。停止词不会包含在返回的文本中。这对于控制输出格式、防止模型生成不需要的内容非常有用，例如在对话场景中可以设置["Human:"]来防止模型模拟用户发言。

Maximum length: 1

response_format

object

指定模型的响应输出格式，默认为text，仅文本模型支持此字段。支持两种格式：{ "type": "text" } 表示普通文本输出模式，模型返回自然语言文本；{ "type": "json_object" } 表示JSON输出模式，模型会返回有效的JSON格式数据，适用于结构化数据提取、API响应生成等场景。使用JSON模式时，建议在提示词中明确说明需要JSON格式输出。

Hide child attributes

response_format.type

enum<string>

default:text

required

输出格式类型：text表示普通文本输出，json_object表示JSON格式输出

Available options:

text,

json_object

request_id

string

请求唯一标识符。由用户端传递，建议使用UUID格式确保唯一性，若未提供平台将自动生成。

user_id

string

终端用户的唯一标识符。ID长度要求：最少6个字符，最多128个字符，建议使用不包含敏感信息的唯一标识。

Required string length: 6 - 128

Response

业务处理成功

string

任务 ID

request_id

string

请求 ID

created

integer

请求创建时间，Unix 时间戳（秒）

model

string

模型名称

choices

object[]

模型响应列表

Hide child attributes

index

integer

结果索引

message

object

Hide child attributes

message.role

string

当前对话角色，默认为 assistant

Example:

"assistant"

message.content

当前对话文本内容。如果调用函数则为 null，否则返回推理结果。对于GLM-4.5V系列模型，返回内容可能包含思考过程标签 <think> </think>，文本边界标签 <|begin_of_box|> <|end_of_box|>。

message.reasoning_content

string

思维链内容，仅在使用 glm-4.5 系列, glm-4.1v-thinking 系列模型时返回。

message.audio

object

当使用 glm-4-voice 模型时返回的音频内容

Hide child attributes

message.audio.id

string

当前对话的音频内容id，可用于多轮对话输入

message.audio.data

string

当前对话的音频内容base64编码

message.audio.expires_at

string

当前对话的音频内容过期时间

message.tool_calls

object[]

生成的应该被调用的函数名称和参数。

Hide child attributes

function

object

包含生成的函数名称和 JSON 格式参数。

Hide child attributes

function.name

string

required

生成的函数名称。

function.arguments

object

required

生成的函数调用参数的 JSON 格式。调用函数前请验证参数。

mcp

object

MCP 工具调用参数

Hide child attributes

mcp.id

string

mcp 工具调用唯一标识

mcp.type

enum<string>

工具调用类型, 例如 mcp_list_tools, mcp_call

Available options:

mcp_list_tools,

mcp_call

mcp.server_label

string

MCP服务器标签

mcp.error

string

错误信息

mcp.tools

object[]

type = mcp_list_tools 时的工具列表

Hide child attributes

name

string

工具名称

description

string

工具描述

annotations

object

工具注解

input_schema

object

工具输入参数规范

Hide child attributes

input_schema.type

enum<string>

default:object

固定值 'object'

Available options:

object

input_schema.properties

object

参数属性定义

input_schema.required

string[]

必填属性列表

input_schema.additionalProperties

boolean

是否允许额外参数

mcp.arguments

string

工具调用参数，参数为 json 字符串

mcp.name

string

工具名称

mcp.output

object

工具返回的结果输出

string

命中函数的唯一标识符。

type

string

调用的工具类型，目前仅支持 'function', 'mcp'。

finish_reason

string

推理终止原因。'stop’表示自然结束或触发stop词，'tool_calls’表示模型命中函数，'length’表示达到token长度限制，'sensitive’表示内容被安全审核接口拦截（用户应判断并决定是否撤回公开内容），'network_error’表示模型推理异常。

usage

object

调用结束时返回的 Token 使用统计。

Hide child attributes

usage.prompt_tokens

number

用户输入的 Token 数量。

usage.completion_tokens

number

输出的 Token 数量

usage.prompt_tokens_details

object

Hide child attributes

usage.prompt_tokens_details.cached_tokens

number

命中的缓存 Token 数量

usage.total_tokens

integer

Token 总数，对于 glm-4-voice 模型，1秒音频=12.5 Tokens，向上取整

video_result

object[]

视频生成结果。

Hide child attributes

url

string

视频链接。

cover_image_url

string

视频封面链接。

web_search

object[]

返回与网页搜索相关的信息，使用WebSearchToolSchema时返回

Hide child attributes

icon

string

来源网站的图标

title

string

搜索结果的标题

link

string

搜索结果的网页链接

media

string

搜索结果网页的媒体来源名称

publish_date

string

网站发布时间

content

string

搜索结果网页引用的文本内容

refer

string

角标序号

content_filter

object[]

返回内容安全的相关信息

Hide child attributes

role

string

安全生效环节，包括 role = assistant 模型推理，role = user 用户输入，role = history 历史上下文

level

integer

严重程度 level 0-3，level 0表示最严重，3表示轻微

API 指引

模型 API

工具 API

Agent API

文件 API

批处理 API

知识库 API

实时 API

助理 API

智能体 API（旧）

Authorizations

Body

Response