Bigmodel home page
Search...
⌘K
Ask AI
控制台
财务
个人中心
Search...
Navigation
音视频模型
GLM-Realtime
使用指南
API 文档
场景示例
更新日志
条款与协议
常见问题
开始使用
平台介绍
模型概览
快速开始
开发指南
模型介绍
文本模型
视觉理解模型
图像生成模型
视频生成模型
音视频模型
GLM-Realtime
GLM-4-Voice
GLM-ASR
向量模型
免费模型
模型工具
联网搜索
函数调用
知识库检索
模型微调
模型评测
批量处理
文件解析
JSON格式化
智能体
语言翻译
内容生成
办公效能
信息提取
智慧教育
平台服务
智能体开发平台
提示词工程
内容安全
模型迁移
用户权益
模型备案
On this page
概览
推荐场景
使用资源
详细介绍
用户并发权益
音视频模型
GLM-Realtime
概览
GLM-Realtime 是一款音视频通话模型,能够提供实时的视频通话功能,通话记忆时长长达2分钟,具有跨文本、音频和视频进行实时推理的能力。
价格
限时免费
输入模态
视频、音频、文本
输出模态
音频
上下文窗口
Show 音频通话
8K, 预计20轮
Show 视频通话
32K
最大输出Tokens
1K
推荐场景
口语陪练
通过实时对话+视频反馈,及时纠正用户发音错误,支持视频捕捉用户表情、识别物体、浏览文档。
实时翻译
支持多语言实时对话,自动识别语种,完成自然语言交互+即时翻译,媲美专业陪同翻译。
面试模拟
AI可扮演面试官模拟真实面试场景,根据不同岗位需求与候选人条件智能匹配面试问题。
旅行导游
模拟专业导游讲解景点/历史/文化,支持视频对话模式,边看边讲,沉浸感强。
使用资源
接口文档
:API调用方式
详细介绍
GLM-Realtime 通过流式推理降低视频通话延时,AI可以进行流畅的通话,人也可以实时打断AI。除了实时音频交互外,GLM-Realtime 还可通过手机或AIPC的摄像头与人互动,通过共享电脑屏幕阅读页面信息,通过视频流理解对话当前的环境。
在语音交互方面,GLM-Realtime 创新性地实现了清唱功能,首次让大模型具备在对话中的歌唱能力。
同时,我们将 GLM-Realtime API 集成到智能眼镜和陪伴娃娃中,以便用户可以体验到近乎实时的智能助手交互。
值得一提的是,GLM-Realtime 进一步支持Function Call功能。不仅能够依靠自身的知识和能力,还能灵活调用外部知识和工具,从而能够拓展到更广泛的商业场景。
用户并发权益
API调用会受到速率限制,当前我们限制的维度是请求并发数量(在途请求任务数量)。不同等级的用户并发保障如下。
V0
V1
V2
V3
5
10
15
20
Was this page helpful?
Yes
No
Vidu 2
GLM-4-Voice
Assistant
Responses are generated using AI and may contain mistakes.