概览

GLM-Realtime 是一款音视频通话模型,能够提供实时的视频通话功能,通话记忆时长长达2分钟,具有跨文本、音频和视频进行实时推理的能力。

价格

限时免费

输入模态

视频、音频、文本

输出模态

音频

上下文窗口

最大输出Tokens

1K

推荐场景

使用资源

接口文档:API调用方式

详细介绍

GLM-Realtime 通过流式推理降低视频通话延时,AI可以进行流畅的通话,人也可以实时打断AI。除了实时音频交互外,GLM-Realtime 还可通过手机或AIPC的摄像头与人互动,通过共享电脑屏幕阅读页面信息,通过视频流理解对话当前的环境。在语音交互方面,GLM-Realtime 创新性地实现了清唱功能,首次让大模型具备在对话中的歌唱能力。同时,我们将 GLM-Realtime API 集成到智能眼镜和陪伴娃娃中,以便用户可以体验到近乎实时的智能助手交互。值得一提的是,GLM-Realtime 进一步支持Function Call功能。不仅能够依靠自身的知识和能力,还能灵活调用外部知识和工具,从而能够拓展到更广泛的商业场景。

用户并发权益

API调用会受到速率限制,当前我们限制的维度是请求并发数量(在途请求任务数量)。不同等级的用户并发保障如下。
V0V1V2V3
5101520