概览

GLM-4-Voice 是智谱推出的首个端到端语音模型。它能够直接理解和生成中英文语音,实现实时语音对话,并可根据用户指令灵活调整语音的情感、语调、语速和方言等特性,使语音交互更加自然生动。

价格

80 元 / 百万Tokens

输入模态

音频、文本

输出模态

音频

上下文窗口

8K

最大输出Tokens

4K

推荐场景

使用资源

接口文档:API调用方式

详细介绍

凭借其实时语音对话功能,GLM-4-Voice 为用户提供高效流畅的沟通体验。GLM-4-Voice具备情感表达、方言生成和语速调节的能力,同时支持中英文双语。它的应用场景广泛,覆盖虚拟角色互动、智慧教育、智能旅游、儿童陪伴等多个领域。通过灵活的语音输入和输出能力,GLM-4-Voice 能够为用户提供高效且个性化的服务体验。在企业应用方面,GLM-4-Voice 可针对不同垂直行业定制专业的场景解决方案,帮助开发者以较低成本快速适应和融入大模型时代。

调用示例

安装 SDK
# 安装最新版本
pip install zai-sdk
# 或指定版本
pip install zai-sdk==0.0.1
验证安装
import zai
print(zai.__version__)
调用示例
import wave
import base64
from zai import ZhipuAiClient

def save_audio_as_wav(audio_data, filepath):
    """保存音频数据为WAV文件(模型返回的语音用)"""
    with wave.open(filepath, 'wb') as wav_file:
        wav_file.setnchannels(1)
        wav_file.setsampwidth(2)
        wav_file.setframerate(44100)
        wav_file.writeframes(audio_data)
    print(f"Audio saved to {filepath}")

def get_base64_from_wav(wav_path):
    """将WAV文件转为Base64编码字符串"""
    with open(wav_path, "rb") as f:
        audio_bytes = f.read()
    return base64.b64encode(audio_bytes).decode("utf-8")

client = ZhipuAiClient(api_key="your_api_key")  # 请填写您自己的APIKey

input_wav_path = "your_voice.wav"  # 你的WAV文件路径
base64_voice = get_base64_from_wav(input_wav_path)

response = client.chat.completions.create(
    model="glm-4-voice",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "你好,这是我的语音输入测试,请慢速复述一遍"
                },
                {
                    "type": "input_audio",
                    "input_audio": {
                        "data": base64_voice,
                        "format": "wav"
                    }
                }
            ]
        }
    ],
    stream=False
)

print(response.choices[0].message.content)

# 解析并保存模型返回的语音
try:
    audio_data = response.choices[0].message.audio['data']
    decoded_data = base64.b64decode(audio_data)
    save_audio_as_wav(decoded_data, "output.wav")
except Exception as e:
    print("处理音频失败:", e)

用户并发权益

API调用会受到速率限制,当前我们限制的维度是请求并发数量(在途请求任务数量)。不同等级的用户并发保障如下。
V0V1V2V3
5101520