概览
CogTTS 语音合成模型 以新一代智谱语音大模型为核心,突破传统语音合成框架,通过上下文智能预判文本情绪与语调,显著提升语音自然度与表现力,让合成语音具备真实情感与生命力。
价格
4元 /万字符
输入模态
文本
输出模态
音频
推荐场景
智能客服
智能客服
全链路柔性服务,降低用户抵触感。依托超拟人语音的情感适配与自然对话能力,覆盖客服全场景。
有声阅读
有声阅读
沉浸式 “解放双眼”,适配多元需求。突破传统 “听书” 局限,以超拟人语音的 “角色化演绎 + 情感随内容动态调整” 能力,打造个性化阅读体验。
智能交互助手
智能交互助手
通过超拟人语音的真实情感衔接与场景化语调调整,让智能硬件摆脱 “工具属性”。
教育领域
教育领域
场景化教学,提升学习沉浸感。
职场办公
职场办公
高效信息传递,解放双手。会议纪要转语音、邮件 / 文档播报、智能待办提醒。
文旅领域
文旅领域
沉浸式体验,替代 “传统导游”,如景区智能导览、酒店智能服务、文旅内容科普。
使用资源
接口文档:API 调用方式
详细介绍
CogTTS 结合了 text2token 大语言模型和 token2wav 扩散模型,突破传统语音合成框架。相比传统技术,CogTTS 在口语自然度、拟人化还原、语句衔接和韵律节奏上全面升级,尤其在情感表达上精准呈现,为客户打造生动、富感染力的听觉体验,实现从“清晰传递”到“情感共鸣”的跨越。
1
超拟人语音合成,情感表达增强
依托新一代语音大模型,根据上下文智能预测文本的情感、语调等信息,提升合成语音的自然度和表现力。
2
支持非流式、流式接口
非流式适合完整文本一次性合成,流式支持在文本生成过程中实时输出语音,实现低延迟的交互式体验。非流式适合完整文本一次性合成,流式支持在文本生成过程中实时输出语音,实现低延迟的交互式体验。
3
快速响应
流式接口返回响应结果,首帧响应速度可达400ms以内。
4
动态调参数
支持随心调节语速、音量等参数,满足复杂场景要求。
可选音色
角色 | 音色示例 |
---|---|
彤彤(默认) | |
小陈 | |
锤锤 | |
jam | |
kazi | |
douji | |
luodo |
应用示例
文本 | 音频 |
---|---|
我叫小智呀~ 是不是刚才有点小委屈呀?跟我说说嘛,我听着呢~ | |
哎呀,可别这么说自己呀!你是不是最近遇到啥事儿了,感觉没做好才这么想的?其实啊,谁还没个手忙脚乱、犯迷糊的时候呢。 | |
初中时看天空的感觉真的很不一样哎!那时候好像总觉得天空特别大,云朵会变成各种形状,傍晚的晚霞能看半天,连星星都比现在亮。 |
调用示例
基础调用流式调用及响应示例异常调用示例
用户并发权益
API 调用会受到速率限制,当前我们限制的维度是请求并发数量(在途请求任务数量)。不同等级的用户并发保障如下。
V0 | V1 | V2 | V3 |
---|---|---|---|
5 | 10 | 15 | 20 |