GLM-ASR

概览

GLM-ASR 是智谱新一代语音识别模型，相较于传统 ASR 模型，GLM-ASR 在上下文智能理解、抗噪性能及多语言转录等方面取得了显著提升，可以被广泛地应用于各类语音转文本的场景中。

价格

0.06 元/分钟

输入模态

音频

输出模态

文本

使用资源

接口文档：API 调用方式

详细介绍

作为一款基于上下文深度理解的语音转文本模型，GLM-ASR 不仅能够将音频精准转录为符合语言习惯的流畅文本，更在复杂噪音环境中展现出卓越的抗干扰能力，为您提供一系列语音转文本的新惊喜：

上下文智能理解

依托先进的语言建模技术，模型可结合上下文语境优化输出结果，显著提升文本的流畅性与可读性，让转录内容更贴近真实表达。

强抗噪性能

即使在非语言类噪声（如机械声、环境杂音）干扰下，模型仍能保持高精度识别，避免误判与漏识，适应多场景需求。

多语言多方言覆盖

支持中文、英语及8种中国地方方言（东北官话、胶辽官话、北京官话、冀鲁官话、中原官话、江淮官话、兰银官话和西南官话），打破地域沟通壁垒，满足多样化语音交互需求。

调用示例

安装 SDK

# 安装最新版本
pip install zai-sdk
# 或指定版本
pip install zai-sdk==0.0.3.3

验证安装

import zai
print(zai.__version__)

调用示例

from zai import ZhipuAiClient

client = ZhipuAiClient(api_key="")  # 请填写您自己的 APIKey

input_wav_path = "speech.wav"  # 你的 WAV 文件路径

with open(input_wav_path, "rb") as audio_data:
    response = client.audio.transcriptions.create(
    model="glm-asr",
    file=audio_data,
    stream=True
    )

    for chunk in response:
        if chunk.type == "transcript.text.delta":
            print(chunk.delta, end="", flush=True)

用户并发权益

API 调用会受到速率限制，当前我们限制的维度是请求并发数量（在途请求任务数量）。不同等级的用户并发保障如下。

V0	V1	V2	V3
5	10	15	20

开始使用

模型介绍

模型工具

智能体

平台服务

概览

价格

输入模态

输出模态

推荐场景

使用资源

详细介绍

上下文智能理解

强抗噪性能

多语言多方言覆盖

调用示例

用户并发权益

开始使用

模型介绍

模型工具

智能体

平台服务

​ 概览

价格

输入模态

输出模态

​ 推荐场景

​ 使用资源

​ 详细介绍

上下文智能理解

强抗噪性能

多语言多方言覆盖

​ 调用示例

​ 用户并发权益

概览

推荐场景

使用资源

详细介绍

调用示例

用户并发权益