概览
GLM-ASR-2512 是智谱新一代语音识别模型,支持将语音实时转换为高质量文字。无论是日常聊天、会议记录、工作文档,还是包含专业术语的场景,都能精准识别与转换,大幅提升输入与记录效率。模型在多场景、多口音条件下依旧保持行业领先的识别表现,字符错误率(CER)仅为 0.0717,带来既快速又可靠的语音输入体验。
输入模态
音频
输出模态
文本
上传文件限制
文件大小 ≤ 25 MB、音频时长 ≤ 30 秒
推荐场景
实时会议纪要
实时会议纪要
实时转录线上会议,自动整理结构化纪要,大幅提升效率。
客服质检与工单处理
客服质检与工单处理
高精度转写客服通话内容,提升质检效率并支持多场景分析。
视频直播字幕
视频直播字幕
为新闻直播、教育课程或视频会议提供实时同步字幕,保证低延迟与高准确率。
办公文档输入
办公文档输入
语音快速生成工作文档、邮件、方案草稿,大幅提升输入速度。
多语言沟通与翻译
多语言沟通与翻译
支持跨语言语音理解,应用于跨境交流、在线会议与教学场景。
医疗病历录入
医疗病历录入
实时识别大量医学专业术语,支持医生口述病历录入,快速生成电子病历。
使用资源
体验中心:快速测试模型在业务场景上的效果接口文档:API 调用方式
详细介绍
1
产品优势
- 精准识别:在最新竞品评估中,GLM-ASR-2512 的字符错误率(CER)仅为 0.0717,达到国际领先水平,比肩全球顶尖语音识别模型。
- 高效自定义词典:模型支持用户通过简易配置,快速导入专属词汇、项目代号(如 AutoGLM、智谱AI输入法)及生僻人名地名等。只需在设置中添加一次,即可告别反复修改的痛点。
- 复杂场景优势:无论是中英混合表达、指令化文本、行业专有名词,还是长句、口语化表达等复杂场景,GLM-ASR-2512 都能稳定输出高质量文字,整体表现显著优于竞品。
2
支持语言
GLM-ASR-2512 具备出色的多语言与方言处理能力,能够精准转录全球多种主流语言及地区性口语:
- 中文:支持普通话,以及四川话、粤语、闽南语、吴语等主要方言
- 英语:支持美式、英式等多种口音
- 其他支持语言:法语、德语、日语、韩语、西班牙语、阿拉伯语等数十种全球常用语言
应用示例
- 专业会议记录
- 语音搜索--车辆导航
- 课堂内容转录
- 游戏语音
模型能够自动区分中英文语境,精准识别数字与单位组合,智能解析不连贯语句(如重复、卡顿),输出逻辑完整的文本,为后续的会议总结和工作安排提供可靠依据。
| 特殊场景 | 原始音频 | 输出结果 |
|---|---|---|
| 数据+术语+中英文 | excel二零一九使用升序降序做排序操作,活动单元格应该选定a工作表的任何地方,b数据清单的任何地方,c排序依据数据列的任意单元格,d数据清单标题行的任意单元格,应该选哪个 |
调用示例
- cURL
基础调用流式调用