使用 GLM-ASR-2512 模型将音频文件转录为文本,支持多语言和实时流式转录。
需要转录的音频文件,支持上传的音频文件格式:.wav / .mp3,规格限制:文件大小 ≤ 25 MB、音频时长 ≤ 30 秒
要调用的模型编码
glm-asr-2512 音频文件Base64编码。file_base64 和 file 只需要传一个(同时传入以file为准)
在长文本场景中,可以提供之前的转录结果作为上下文。建议小于8000字。
热词表,用于提升特定领域词汇识别率。格式例如["人名","地名"],建议不超过100个。
100该参数在使用同步调用时应设置为false或省略。表示模型在生成所有内容后一次性返回所有内容。默认值为false。如果设置为true,模型将通过标准Event Stream逐块返回生成的内容。当Event Stream结束时,将返回一个data: [DONE]消息。
由用户端传递,需要唯一;用于区分每次请求的唯一标识符。如果用户端未提供,平台将默认生成。
终端用户的唯一ID,帮助平台对终端用户的非法活动、生成非法不当信息或其他滥用行为进行干预。ID长度要求:至少6个字符,最多128个字符。