概览

GLM-4-Voice 是智谱推出的首个端到端语音模型。它能够直接理解和生成中英文语音，实现实时语音对话，并可根据用户指令灵活调整语音的情感、语调、语速和方言等特性，使语音交互更加自然生动。

价格

80 元 / 百万 Tokens

输入模态

音频、文本

输出模态

音频

上下文窗口

最大输出 Tokens

使用资源

接口文档：API 调用方式

详细介绍

凭借其实时语音对话功能，GLM-4-Voice 为用户提供高效流畅的沟通体验。GLM-4-Voice具备情感表达、方言生成和语速调节的能力，同时支持中英文双语。它的应用场景广泛，覆盖虚拟角色互动、智慧教育、智能旅游、儿童陪伴等多个领域。通过灵活的语音输入和输出能力，GLM-4-Voice 能够为用户提供高效且个性化的服务体验。在企业应用方面，GLM-4-Voice 可针对不同垂直行业定制专业的场景解决方案，帮助开发者以较低成本快速适应和融入大模型时代。

调用示例

Python
Java
旧版 Python
输出示例

安装 SDK

# 安装最新版本
pip install zai-sdk
# 或指定版本
pip install zai-sdk==0.0.4

验证安装

import zai
print(zai.__version__)

调用示例

import wave
import base64
from zai import ZhipuAiClient

def save_audio_as_wav(audio_data, filepath):
    """保存音频数据为 WAV 文件（模型返回的语音用）"""
    with wave.open(filepath, 'wb') as wav_file:
        wav_file.setnchannels(1)
        wav_file.setsampwidth(2)
        wav_file.setframerate(44100)
        wav_file.writeframes(audio_data)
    print(f"Audio saved to {filepath}")

def get_base64_from_wav(wav_path):
    """将 WAV 文件转为 Base64 编码字符串"""
    with open(wav_path, "rb") as f:
        audio_bytes = f.read()
    return base64.b64encode(audio_bytes).decode("utf-8")

client = ZhipuAiClient(api_key="your_api_key")  # 请填写您自己的 APIKey

input_wav_path = "your_voice.wav"  # 你的 WAV 文件路径
base64_voice = get_base64_from_wav(input_wav_path)

response = client.chat.completions.create(
    model="glm-4-voice",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "你好，这是我的语音输入测试，请慢速复述一遍"
                },
                {
                    "type": "input_audio",
                    "input_audio": {
                        "data": base64_voice,
                        "format": "wav"
                    }
                }
            ]
        }
    ],
    stream=False
)

print(response.choices[0].message.content)

# 解析并保存模型返回的语音
try:
    audio_data = response.choices[0].message.audio['data']
    decoded_data = base64.b64decode(audio_data)
    save_audio_as_wav(decoded_data, "output.wav")
except Exception as e:
    print("处理音频失败：", e)

用户并发权益

API 调用会受到速率限制，当前我们限制的维度是请求并发数量（在途请求任务数量）。不同等级的用户并发保障如下。

V0	V1	V2	V3
5	10	15	20

开始使用

模型介绍

模型能力

模型工具

智能体

平台服务

GLM-4-Voice

概览

价格

输入模态

输出模态

上下文窗口

最大输出 Tokens

推荐场景

使用资源

详细介绍

调用示例

用户并发权益

开始使用

模型介绍

模型能力

模型工具

智能体

平台服务

​ 概览

价格

输入模态

输出模态

上下文窗口

最大输出 Tokens

​ 推荐场景

​ 使用资源

​ 详细介绍

​ 调用示例

​ 用户并发权益

概览

推荐场景

使用资源

详细介绍

调用示例

用户并发权益