概览

GLM-4.1V-Thinking 系列是目前已知10B尺寸级别中性能最强的视觉推理模型。它在图表/视频理解、前端Coding、GUI任务等核心能力达到全面新SOTA,并引入思维链推理机制,显著提升模型在复杂场景中的回答精准度与可解释性。

定位

高并发版

价格

2 元 / 百万Tokens

输入模态

视频、图像、文本

输出模态

文本

上下文窗口

64K

推荐场景

使用资源

体验中心:快速测试模型在业务场景上的效果
接口文档:API调用方式

详细介绍

1

多项视觉语言任务性能SOTA

GLM-4.1V-Thinking 模型在高效部署的同时实现了性能突破。在MMStar、MMMU-Pro、ChartQAPro、OSWorld等28项权威评测中,以 23 项 10B 级模型最优成绩展现硬核实力,其中 18 项指标更是持平或超越8倍参数量的主流VLM模型,充分印证小体积模型的极限性能潜能。Description值得注意的是,模型在推荐场景任务处理中展现出卓越的适配能力,其高度的通用性与稳健性在复杂业务场景中尤为凸显。
2

领先的推理能力

GLM-4.1V-Thinking 在 GLM-4V 架构基础上引入“思维链推理机制”,采用“课程采样强化学习策略”,系统性提升模型跨模态因果推理能力与稳定性补足推理能力后的GLM-4.1V-Thinking ,在面向科学研究、教育、自主Agent及多模态助手等更复杂现实世界应用时,解决问题的能力更加强大。

应用示例

输入

Description
请找出这张图中年度利润最高的公司,以及该公司的最大部门?

输出

Sony has the highest annual profit at $6.3B. For Sony, the note states, “Media is Sony’s second - largest segment after game consoles.” Thus, the largest segment is game consoles.

调用示例

安装 SDK
# 安装最新版本
pip install zai-sdk
# 或指定版本
pip install zai-sdk==0.0.1
验证安装
import zai
print(zai.__version__)
调用示例
from zai import ZhipuAiClient
client = ZhipuAiClient(api_key="")  # 请填写您自己的APIKey
response = client.chat.completions.create(
    model="glm-4.1v-thinking-flashx",  # 请填写您要调用的模型名称
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "请帮我解决这个题目,给出详细过程和答案"},
                {"type": "image_url", "image_url": {"url": "https://img.iplaysoft.com/wp-content/uploads/2019/free-images/free_stock_photo.jpg"}}
            ]
        }
    ]
)
print(response.choices[0].message.content)
请注意,GLM-4.1V-Thinking 模型支持图片和文本的多模态输入,您可以在 messages 中同时包含文本和图片。

用户并发权益

API调用会受到速率限制,当前我们限制的维度是请求并发数量(在途请求任务数量)。不同等级的用户并发保障如下。
模型版本V0V1V2V3
GLM-4.1V-Thinking-Flash5101520
GLM-4.1V-Thinking-FlashX305080100