概览

GLM-ASR 是智谱新一代语音识别模型,相较于传统 ASR 模型,GLM-ASR 在上下文智能理解、抗噪性能及多语言转录等方面取得了显著提升,可以被广泛地应用于各类语音转文本的场景中。

价格

0.06 元/分钟

输入模态

音频

输出模态

文本

推荐场景

使用资源

接口文档:API调用方式

详细介绍

作为一款基于上下文深度理解的语音转文本模型,GLM-ASR 不仅能够将音频精准转录为符合语言习惯的流畅文本,更在复杂噪音环境中展现出卓越的抗干扰能力,为您提供一系列语音转文本的新惊喜:
1

上下文智能理解

依托先进的语言建模技术,模型可结合上下文语境优化输出结果,显著提升文本的流畅性与可读性,让转录内容更贴近真实表达。
2

强抗噪性能

即使在非语言类噪声(如机械声、环境杂音)干扰下,模型仍能保持高精度识别,避免误判与漏识,适应多场景需求。
3

多语言多方言覆盖

支持中文、英语及8种中国地方方言(东北官话、胶辽官话、北京官话、冀鲁官话、中原官话、江淮官话、兰银官话和西南官话),打破地域沟通壁垒,满足多样化语音交互需求。

调用示例

安装 SDK
# 安装最新版本
pip install zai-sdk
# 或指定版本
pip install zai-sdk==0.0.1
验证安装
import zai
print(zai.__version__)
调用示例
from zai import ZhipuAiClient

client = ZhipuAiClient(api_key="")  # 请填写您自己的APIKey

input_wav_path = "speech.wav"  # 你的WAV文件路径

with open(input_wav_path, "rb") as audio_data:
    response = client.audio.transcriptions.create(
    model="glm-asr",
    file=audio_data,
    stream=True
    )

    for chunk in response:
        if chunk.type == "transcript.text.delta":
            print(chunk.delta, end="", flush=True)

用户并发权益

API调用会受到速率限制,当前我们限制的维度是请求并发数量(在途请求任务数量)。不同等级的用户并发保障如下。
V0V1V2V3
5101520