Authorizations
使用以下格式进行身份验证:Bearer <your api key>
Body
普通对话模型请求,支持纯文本对话和工具调用
调用的普通对话模型代码。GLM-4.5
和 GLM-4.5-Air
是最新的旗舰模型系列,专为智能体应用打造的基础模型。GLM-4.5
系列提供了复杂推理、超长上下文、极快推理速度等多款模型。
glm-4.5
, glm-4.5-air
, glm-4.5-x
, glm-4.5-airx
, glm-4.5-flash
, glm-4-plus
, glm-4-air-250414
, glm-4-airx
, glm-4-flashx
, glm-4-flashx-250414
, glm-z1-air
, glm-z1-airx
, glm-z1-flash
, glm-z1-flashx
"glm-4.5"
对话消息列表,包含当前对话的完整上下文信息。每条消息都有特定的角色和内容,模型会根据这些消息生成回复。消息按时间顺序排列,支持四种角色:system
(系统消息,用于设定AI
的行为和角色)、user
(用户消息,来自用户的输入)、assistant
(助手消息,来自AI
的回复)、tool
(工具消息,工具调用的结果)。普通对话模型主要支持纯文本内容。注意不能只包含系统消息或助手消息。
1
是否启用流式输出模式。默认值为 false
。当设置为 false
时,模型会在生成完整响应后一次性返回所有内容,适合短文本生成和批处理场景。当设置为 true
时,模型会通过Server-Sent Events (SSE)
流式返回生成的内容,用户可以实时看到文本生成过程,适合聊天对话和长文本生成场景,能提供更好的用户体验。流式输出结束时会返回 data: [DONE]
消息。
false
仅 GLM-4.5
及以上模型支持此参数配置. 控制大模型是否开启思维链。
是否启用采样策略来生成文本。默认值为 true
。当设置为 true
时,模型会使用 temperature、top_p
等参数进行随机采样,生成更多样化的输出;当设置为 false
时,模型总是选择概率最高的词汇,生成更确定性的输出,此时 temperature
和 top_p
参数将被忽略。对于需要一致性和可重复性的任务(如代码生成、翻译),建议设置为 false
。
true
采样温度,控制输出的随机性和创造性,取值范围为 [0.0, 1.0]
,限两位小数。对于GLM-4.5
系列默认值为 0.6
,GLM-Z1
系列和GLM-4
系列默认值为 0.75
。较高的值(如0.8
)会使输出更随机、更具创造性,适合创意写作和头脑风暴;较低的值(如0.2
)会使输出更稳定、更确定,适合事实性问答和代码生成。建议根据应用场景调整 top_p
或 temperature
参数,但不要同时调整两个参数。
0 <= x <= 1
0.6
核采样(nucleus sampling
)参数,是temperature
采样的替代方法,取值范围为 [0.0, 1.0]
,限两位小数。对于GLM-4.5
系列默认值为 0.95
,GLM-Z1
系列和GLM-4
系列默认值为 0.9
。模型只考虑累积概率达到top_p
的候选词汇。例如:0.1
表示只考虑前10%
概率的词汇,0.9
表示考虑前90%
概率的词汇。较小的值会产生更集中、更一致的输出;较大的值会增加输出的多样性。建议根据应用场景调整 top_p
或 temperature
参数,但不建议同时调整两个参数。
0 <= x <= 1
0.95
模型输出的最大令牌token
数量限制。GLM-4.5
最大支持96K
输出长度,GLM-Z1
系列最大支持32K
输出长度,建议设置不小于1024
。令牌是文本的基本单位,通常1
个令牌约等于0.75
个英文单词或1.5
个中文字符。设置合适的max_tokens
可以控制响应长度和成本,避免过长的输出。如果模型在达到max_tokens
限制前完成回答,会自然结束;如果达到限制,输出可能被截断。
默认值和最大值等更多详见 max_tokens 文档
1 <= x <= 98304
1024
模型可以调用的工具列表。支持函数调用、知识库检索和网络搜索。使用此参数提供模型可以生成 JSON
输入的函数列表或配置其他工具。最多支持 128
个函数。目前 GLM-4
系列已支持所有 tools
,GLM-4.5
已支持 web search
和 retrieval
。
控制模型如何选择工具。
用于控制模型选择调用哪个函数的方式,仅在工具类型为function
时补充。默认auto
且仅支持auto
。
auto
停止词列表,当模型生成的文本中遇到这些指定的字符串时会立即停止生成。目前仅支持单个停止词,格式为["stop_word1"]。停止词不会包含在返回的文本中。这对于控制输出格式、防止模型生成不需要的内容非常有用,例如在对话场景中可以设置["Human:"]来防止模型模拟用户发言。
1
指定模型的响应输出格式,默认为text
,仅文本模型支持此字段。支持两种格式:{ "type": "text" } 表示普通文本输出模式,模型返回自然语言文本;{ "type": "json_object" } 表示JSON
输出模式,模型会返回有效的JSON
格式数据,适用于结构化数据提取、API
响应生成等场景。使用JSON
模式时,建议在提示词中明确说明需要JSON
格式输出。
请求唯一标识符。由用户端传递,建议使用UUID
格式确保唯一性,若未提供平台将自动生成。
终端用户的唯一标识符。ID
长度要求:最少6
个字符,最多128
个字符,建议使用不包含敏感信息的唯一标识。
6 - 128