Skip to main content

概览

GLM-TTS-Clone 是智谱推出的音色克隆模型,只需 3 秒语音样本,即可学习说话者的音色与语气习惯,可在通用朗读、情感配音、教育测评、电子书、有声客服等场景中生成自然流畅、贴近真人的语音。

输入模态

需要克隆音色的音频、试听文本(可选)

输出模态

音色ID、试听音频(可选)
模型价格详情请前往价格界面

推荐场景

适配多学科内容,准确处理多音字、生僻字和符号;讲解语气自然、有耐心,帮助学生获得更清晰的理解体验。
不同角色可呈现差异化的情绪和风格,让有声书、短剧等内容更具代入感。
提供克制、专业、不夸张的语气风格,让用户听感更自然可信,提升服务体验。
为智能音箱、车载助手等设备带来更加真人化、亲和的语音反馈,减少机器感。
快速生成统一、可识别的品牌声音形象,用于广告、培训教材、活动播报等多类内容。

使用资源

体验中心:快速测试模型在业务场景上的效果
接口文档:API 调用方式
GLM-TTS 使用指南:可先通过 GLM-TTS-Clone 模型获取音色ID,然后用 GLM-TTS 模型生成该音色的音频

详细介绍

1
只需录制约 3 秒清晰语音,GLM-TTS-Clone 即可生成专属音色:
  • 支持普通话及轻口音日常表达;
  • 保留个人说话节奏、断句习惯和常见语气词;
  • 适配讲解、对话、播音、旁白等多种文本风格。
  • 细腻的情感表达,依托强化学习与情感标注数据能自动匹配情绪。
以下视频中的部分声音由 GLM‑TTS生成,只需 3 秒,即可实现完美复刻: