对话补全(异步)

curl --request POST \
  --url https://open.bigmodel.cn/api/paas/v4/async/chat/completions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "model": "glm-4.6",
  "messages": [
    {
      "role": "user",
      "content": "What opportunities and challenges will the Chinese large model industry face in 2025?"
    }
  ],
  "thinking": {
    "type": "enabled"
  },
  "do_sample": true,
  "temperature": 1,
  "top_p": 0.95,
  "max_tokens": 1024,
  "tools": [
    {
      "type": "function",
      "function": {
        "name": "<string>",
        "description": "<string>",
        "parameters": {}
      }
    }
  ],
  "tool_choice": "auto",
  "stop": [
    "<string>"
  ],
  "response_format": {
    "type": "text"
  },
  "request_id": "<string>",
  "user_id": "<string>"
}
'

{
  "model": "<string>",
  "id": "<string>",
  "request_id": "<string>",
  "task_status": "<string>"
}

POST

paas

async

chat

completions

对话补全(异步)

curl --request POST \
  --url https://open.bigmodel.cn/api/paas/v4/async/chat/completions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "model": "glm-4.6",
  "messages": [
    {
      "role": "user",
      "content": "What opportunities and challenges will the Chinese large model industry face in 2025?"
    }
  ],
  "thinking": {
    "type": "enabled"
  },
  "do_sample": true,
  "temperature": 1,
  "top_p": 0.95,
  "max_tokens": 1024,
  "tools": [
    {
      "type": "function",
      "function": {
        "name": "<string>",
        "description": "<string>",
        "parameters": {}
      }
    }
  ],
  "tool_choice": "auto",
  "stop": [
    "<string>"
  ],
  "response_format": {
    "type": "text"
  },
  "request_id": "<string>",
  "user_id": "<string>"
}
'

{
  "model": "<string>",
  "id": "<string>",
  "request_id": "<string>",
  "task_status": "<string>"
}

Authorizations

Authorization

string

header

required

使用以下格式进行身份验证：Bearer

Body

application/json

文本模型
视觉模型
音频模型
角色模型

普通对话模型请求，支持纯文本对话和工具调用

model

enum<string>

default:glm-4.6

required

调用的普通对话模型代码。GLM-4.6 是最新的旗舰模型系列，专为智能体应用打造的基础模型。GLM-4.6 GLM-4.5 系列提供了复杂推理、超长上下文、极快推理速度等多款模型。

Available options:

glm-4.6,

glm-4.5,

glm-4.5-air,

glm-4.5-x,

glm-4.5-airx,

glm-4.5-flash,

glm-4-plus,

glm-4-air-250414,

glm-4-airx,

glm-4-flashx,

glm-4-flashx-250414

Example:

"glm-4.6"

messages

(用户消息 · object | 系统消息 · object | 助手消息 · object | 工具消息 · object)[]

required

对话消息列表，包含当前对话的完整上下文信息。每条消息都有特定的角色和内容，模型会根据这些消息生成回复。消息按时间顺序排列，支持四种角色：system（系统消息，用于设定AI的行为和角色）、user（用户消息，来自用户的输入）、assistant（助手消息，来自AI的回复）、tool（工具消息，工具调用的结果）。普通对话模型主要支持纯文本内容。注意不能只包含系统消息或助手消息。

Minimum array length: 1

用户消息
系统消息
助手消息
工具消息

Hide child attributes

messages.role

enum<string>

default:user

required

消息作者的角色

Available options:

user

messages.content

string

required

文本消息内容

Example:

"What opportunities and challenges will the Chinese large model industry face in 2025?"

thinking

object

仅 GLM-4.5 及以上模型支持此参数配置. 控制大模型是否开启思维链。

Hide child attributes

thinking.type

enum<string>

default:enabled

是否开启思维链(当开启后 GLM-4.6 GLM-4.6V GLM-4.5 为模型自动判断是否思考，GLM-4.5V 为强制思考), 默认: enabled.

Available options:

enabled,

disabled

do_sample

boolean

default:true

是否启用采样策略来生成文本。默认值为 true。当设置为 true 时，模型会使用 temperature、top_p 等参数进行随机采样，生成更多样化的输出；当设置为 false 时，模型总是选择概率最高的词汇，生成更确定性的输出，此时 temperature 和 top_p 参数将被忽略。对于需要一致性和可重复性的任务（如代码生成、翻译），建议设置为 false。

Example:

true

temperature

number<float>

default:1

采样温度，控制输出的随机性和创造性，取值范围为 (0.0, 1.0]，限两位小数。对于GLM-4.6系列默认值为 1.0，GLM-4.5系列默认值为 0.6，GLM-4系列默认值为 0.75。较高的值（如0.8）会使输出更随机、更具创造性，适合创意写作和头脑风暴；较低的值（如0.2）会使输出更稳定、更确定，适合事实性问答和代码生成。建议根据应用场景调整 top_p 或 temperature 参数，但不要同时调整两个参数。

Required range: 0 <= x <= 1

Example:

1

top_p

number<float>

default:0.95

核采样（nucleus sampling）参数，是temperature采样的替代方法，取值范围为 [0.01, 1.0]，限两位小数。对于GLM-4.6 GLM-4.5系列默认值为 0.95，GLM-4系列默认值为 0.9。模型只考虑累积概率达到top_p的候选词汇。例如：0.1表示只考虑前10%概率的词汇，0.9表示考虑前90%概率的词汇。较小的值会产生更集中、更一致的输出；较大的值会增加输出的多样性。建议根据应用场景调整 top_p 或 temperature 参数，但不建议同时调整两个参数。

Required range: 0.01 <= x <= 1

Example:

0.95

max_tokens

integer

模型输出的最大令牌token数量限制。GLM-4.6最大支持128K输出长度，GLM-4.5最大支持96K输出长度，建议设置不小于1024。令牌是文本的基本单位，通常1个令牌约等于0.75个英文单词或1.5个中文字符。设置合适的max_tokens可以控制响应长度和成本，避免过长的输出。如果模型在达到max_tokens限制前完成回答，会自然结束；如果达到限制，输出可能被截断。默认值和最大值等更多详见 max_tokens 文档

Required range: 1 <= x <= 131072

Example:

1024

tools

Function Call · object

Function Call · object[]
Retrieval · object[]
Web Search · object[]
MCP · object[]

Hide child attributes

tools.type

enum<string>

default:function

required

Available options:

function

tools.function

object

required

Hide child attributes

tools.function.name

string

required

要调用的函数名称。必须是 a-z、A-Z、0-9，或包含下划线和破折号，最大长度为 64。

Required string length: 1 - 64

tools.function.description

string

required

函数功能的描述，供模型选择何时以及如何调用函数。

tools.function.parameters

object

required

使用 JSON Schema 定义的参数。必须传递 JSON Schema 对象以准确定义接受的参数。如果调用函数时不需要参数，则省略。

tool_choice

enum<string>

控制模型如何选择工具。

Available options:

auto

stop

string[]

停止词列表，当模型生成的文本中遇到这些指定的字符串时会立即停止生成。目前仅支持单个停止词，格式为["stop_word1"]。停止词不会包含在返回的文本中。这对于控制输出格式、防止模型生成不需要的内容非常有用，例如在对话场景中可以设置["Human:"]来防止模型模拟用户发言。

Maximum array length: 1

response_format

object

指定模型的响应输出格式，默认为text，仅文本模型支持此字段。支持两种格式：{ "type": "text" } 表示普通文本输出模式，模型返回自然语言文本；{ "type": "json_object" } 表示JSON输出模式，模型会返回有效的JSON格式数据，适用于结构化数据提取、API响应生成等场景。使用JSON模式时，建议在提示词中明确说明需要JSON格式输出。

Hide child attributes

response_format.type

enum<string>

default:text

required

输出格式类型：text表示普通文本输出，json_object表示JSON格式输出

Available options:

text,

json_object

request_id

string

请求唯一标识符。由用户端传递，建议使用UUID格式确保唯一性，若未提供平台将自动生成。

user_id

string

终端用户的唯一标识符。ID长度要求：最少6个字符，最多128个字符，建议使用不包含敏感信息的唯一标识。

Required string length: 6 - 128

Response

业务处理成功

model

string

此次调用使用的名称。

string

生成的任务ID，调用请求结果接口时使用此ID。

request_id

string

用户在客户端请求期间提交的任务编号或平台生成的任务编号。

task_status

string

处理状态，PROCESSING (处理中)、SUCCESS (成功)、FAIL (失败)。结果需要通过查询获取。

对话补全生成视频(异步)

⌘I

API 指引

模型 API

工具 API

Agent API

文件 API

批处理 API

知识库 API

实时 API

助理 API

智能体 API（旧）

对话补全(异步)

Authorizations

Body

Response