Skip to main content
POST
/
paas
/
v4
/
audio
/
transcriptions
语音转文本
curl --request POST \
  --url https://open.bigmodel.cn/api/paas/v4/audio/transcriptions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form file='@example-file' \
  --form model=glm-asr-2512 \
  --form 'file_base64=<string>' \
  --form 'prompt=<string>' \
  --form 'hotwords=<string>' \
  --form stream=false \
  --form 'request_id=<string>' \
  --form 'user_id=<string>'
{
  "id": "<string>",
  "created": 123,
  "request_id": "<string>",
  "model": "<string>",
  "text": "<string>"
}

Authorizations

Authorization
string
header
required

使用以下格式进行身份验证:Bearer

Body

multipart/form-data
file
file
required

需要转录的音频文件,支持上传的音频文件格式:.wav / .mp3,规格限制:文件大小 ≤ 25 MB、音频时长 ≤ 30 秒

model
enum<string>
default:glm-asr-2512
required

要调用的模型编码

Available options:
glm-asr-2512
file_base64
string

音频文件Base64编码。file_base64 和 file 只需要传一个(同时传入以file为准)

prompt
string

在长文本场景中,可以提供之前的转录结果作为上下文。建议小于8000字。

hotwords
string[]

热词表,用于提升特定领域词汇识别率。格式例如["人名","地名"],建议不超过100个。

Maximum array length: 100
stream
boolean
default:false

该参数在使用同步调用时应设置为false或省略。表示模型在生成所有内容后一次性返回所有内容。默认值为false。如果设置为true,模型将通过标准Event Stream逐块返回生成的内容。当Event Stream结束时,将返回一个data: [DONE]消息。

request_id
string

由用户端传递,需要唯一;用于区分每次请求的唯一标识符。如果用户端未提供,平台将默认生成。

user_id
string

终端用户的唯一ID,帮助平台对终端用户的非法活动、生成非法不当信息或其他滥用行为进行干预。ID长度要求:至少6个字符,最多128个字符。

Response

业务处理成功

id
string

任务 ID

created
integer<int64>

请求创建时间,是以秒为单位的 Unix 时间戳

request_id
string

由用户端传递,需要唯一;用于区分每次请求的唯一标识符。如果用户端未提供,平台将默认生成。

model
string

模型名称

text
string

音频转录的完整内容