Skip to main content

概览

GLM-ASR-2512 是智谱新一代语音识别模型,支持将语音实时转换为高质量文字。无论是日常聊天、会议记录、工作文档,还是包含专业术语的场景,都能精准识别与转换,大幅提升输入与记录效率。模型在多场景、多口音条件下依旧保持行业领先的识别表现,字符错误率(CER)仅为 0.0717,带来既快速又可靠的语音输入体验。

输入模态

音频

输出模态

文本

上传文件限制

文件大小 ≤ 25 MB、音频时长 ≤ 30 秒
模型价格详情请前往价格界面

推荐场景

实时转录线上会议,自动整理结构化纪要,大幅提升效率。
高精度转写客服通话内容,提升质检效率并支持多场景分析。
为新闻直播、教育课程或视频会议提供实时同步字幕,保证低延迟与高准确率。
语音快速生成工作文档、邮件、方案草稿,大幅提升输入速度。
支持跨语言语音理解,应用于跨境交流、在线会议与教学场景。
实时识别大量医学专业术语,支持医生口述病历录入,快速生成电子病历。

使用资源

体验中心:快速测试模型在业务场景上的效果
接口文档:API 调用方式

详细介绍

1

产品优势

  • 精准识别:在最新竞品评估中,GLM-ASR-2512 的字符错误率(CER)仅为 0.0717,达到国际领先水平,比肩全球顶尖语音识别模型。
  • 高效自定义词典:模型支持用户通过简易配置,快速导入专属词汇、项目代号(如 AutoGLM、智谱AI输入法)及生僻人名地名等。只需在设置中添加一次,即可告别反复修改的痛点。
  • 复杂场景优势:无论是中英混合表达、指令化文本、行业专有名词,还是长句、口语化表达等复杂场景,GLM-ASR-2512 都能稳定输出高质量文字,整体表现显著优于竞品。
2

支持语言

GLM-ASR-2512 具备出色的多语言与方言处理能力,能够精准转录全球多种主流语言及地区性口语:
  • 中文:支持普通话,以及四川话、粤语、闽南语、吴语等主要方言
  • 英语:支持美式、英式等多种口音
  • 其他支持语言:法语、德语、日语、韩语、西班牙语、阿拉伯语等数十种全球常用语言

应用示例

模型能够自动区分中英文语境,精准识别数字与单位组合,智能解析不连贯语句(如重复、卡顿),输出逻辑完整的文本,为后续的会议总结和工作安排提供可靠依据。
特殊场景原始音频输出结果
数据+术语+中英文excel二零一九使用升序降序做排序操作,活动单元格应该选定a工作表的任何地方,b数据清单的任何地方,c排序依据数据列的任意单元格,d数据清单标题行的任意单元格,应该选哪个

调用示例

基础调用
curl --request POST \
    --url https://open.bigmodel.cn/api/paas/v4/audio/transcriptions \
    --header 'Authorization: Bearer API_Key' \
    --header 'Content-Type: multipart/form-data' \
    --form model=glm-asr-2512 \
    --form stream=false \
    --form file=@example-file
流式调用
curl --request POST \
  --url https://open.bigmodel.cn/api/paas/v4/audio/transcriptions \
  --header 'Authorization: Bearer API_Key' \
  --header 'Content-Type: multipart/form-data' \
  --form model=glm-asr-2512 \
  --form stream=true \
  --form file=@example-file