概览
GLM-4-Voice 是智谱推出的首个端到端语音模型。它能够直接理解和生成中英文语音,实现实时语音对话,并可根据用户指令灵活调整语音的情感、语调、语速和方言等特性,使语音交互更加自然生动。
价格
80 元 / 百万 Tokens
输入模态
音频、文本
输出模态
音频
上下文窗口
8K
最大输出 Tokens
4K
推荐场景
角色陪伴
角色陪伴
AI 通过虚拟角色(如游戏角色、虚拟偶像)与用户进行情感化对话,虚拟角色可以设定为特定性格、背景和声音,实现全天候陪伴。
智能导游
智能导游
AI 导游与用户进行实时语音交互,为用户提供详细的历史背景、文化意义和建筑特点,通过语音描述帮助用户规划游览路线,解答用户关于景点的疑问。
英语学习
英语学习
AI 英语老师通过模拟真实场景(如点餐、问路)与用户进行对话练习,解答用户关于语法规则的疑问,实时纠正用户发音、学习日常表达和语法知识,并提供改进建议。
在线教育
在线教育
AI 辅导老师与学生通过详细讲解课程内容,为学生提供课程讲解、作业辅导和学习建议,涵盖多个学科(如数学、历史、科学),解答学生在作业中遇到的问题,通过多轮对话帮助学生理解难点。
使用资源
接口文档:API 调用方式
详细介绍
凭借其实时语音对话功能,GLM-4-Voice 为用户提供高效流畅的沟通体验。GLM-4-Voice具备情感表达、方言生成和语速调节的能力,同时支持中英文双语。它的应用场景广泛,覆盖虚拟角色互动、智慧教育、智能旅游、儿童陪伴等多个领域。通过灵活的语音输入和输出能力,GLM-4-Voice 能够为用户提供高效且个性化的服务体验。在企业应用方面,GLM-4-Voice 可针对不同垂直行业定制专业的场景解决方案,帮助开发者以较低成本快速适应和融入大模型时代。
调用示例
安装 SDK验证安装调用示例
用户并发权益
API 调用会受到速率限制,当前我们限制的维度是请求并发数量(在途请求任务数量)。不同等级的用户并发保障如下。
V0 | V1 | V2 | V3 |
---|---|---|---|
5 | 10 | 15 | 20 |