GLM-4.1V-Thinking

概览

GLM-4.1V-Thinking 系列是 10B 尺寸性能卓越的视觉推理模型。它在图表/视频理解、前端 Coding、GUI 任务等核心能力达到全面新 SOTA，并引入思维链推理机制，显著提升模型在复杂场景中的回答精准度与可解释性。

GLM-4.1V-Thinking-FlashX
GLM-4.1V-Thinking-Flash

定位

高并发版

价格

2 元 / 百万 Tokens

输入模态

视频、图像、文本

输出模态

文本

上下文窗口

64K

能力支持

内置深度思考

默认内置深度思考，提供更深层次的推理分析

视觉理解

强大的视觉理解能力，支持图片，视频，文件

流式输出

支持实时流式响应，提升用户交互体验

使用资源

体验中心：快速测试模型在业务场景上的效果
接口文档：API 调用方式

详细介绍

多项视觉语言任务性能 SOTA

GLM-4.1V-Thinking 模型在高效部署的同时实现了性能突破。在 MMStar、MMMU-Pro、ChartQAPro、OSWorld 等 28 项权威评测中，以 23 项 10B 级模型优异成绩展现硬核实力，其中 18 项指标更是持平或超越 8 倍参数量的主流 VLM 模型，充分印证小体积模型的极限性能潜能。 Description

值得注意的是，模型在推荐场景任务处理中展现出卓越的适配能力，其高度的通用性与稳健性在复杂业务场景中尤为凸显。

强大的推理能力

GLM-4.1V-Thinking 在 GLM-4V 架构基础上引入“思维链推理机制”，采用“课程采样强化学习策略”，系统性提升模型跨模态因果推理能力与稳定性补足推理能力后的 GLM-4.1V-Thinking ，在面向科学研究、教育、自主 Agent 及多模态助手等更复杂现实世界应用时，解决问题的能力更加强大。

应用示例

图片问答
学科解题
GUI Agent
前端网页Coding

输入

请找出这张图中年度利润最高的公司，以及该公司的最大部门？

输出

Sony has the highest annual profit at $6.3B. For Sony, the note states, “Media is Sony’s second - largest segment after game consoles.” Thus, the largest segment is game consoles.

调用示例

Python
Java
Python(旧)

安装 SDK

# 安装最新版本
pip install zai-sdk
# 或指定版本
pip install zai-sdk==0.2.2

验证安装

import zai
print(zai.__version__)

调用示例

from zai import ZhipuAiClient
client = ZhipuAiClient(api_key="")  # 请填写您自己的 APIKey
response = client.chat.completions.create(
    model="glm-4.1v-thinking-flashx",  # 请填写您要调用的模型名称
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "请帮我解决这个题目，给出详细过程和答案"},
                {"type": "image_url", "image_url": {"url": "https://img.iplaysoft.com/wp-content/uploads/2019/free-images/free_stock_photo.jpg"}}
            ]
        }
    ]
)
print(response.choices[0].message.content)

安装 SDKMaven

<dependency>
    <groupId>ai.z.openapi</groupId>
    <artifactId>zai-sdk</artifactId>
    <version>0.3.3</version>
</dependency>

Gradle (Groovy)

implementation 'ai.z.openapi:zai-sdk:0.3.3'

调用示例

import ai.z.openapi.ZhipuAiClient;
import ai.z.openapi.service.model.*;
import ai.z.openapi.core.Constants;
import java.util.Arrays;

public class GLM41VThinkingExample {
public static void main(String[] args) {
    String apiKey = ""; // 请填写您自己的APIKey
    ZhipuAiClient client = ZhipuAiClient.builder().ofZHIPU()
        .apiKey(apiKey)
        .build();
    
    ChatCompletionCreateParams request = ChatCompletionCreateParams.builder()
        .model("glm-4.1v-thinking-flashx")
        .messages(Arrays.asList(
            ChatMessage.builder()
                .role(ChatMessageRole.USER.value())
                .content(Arrays.asList(
                    MessageContent.builder()
                        .type("text")
                        .text("描述下这张图片")
                        .build(),
                    MessageContent.builder()
                        .type("image_url")
                        .imageUrl(ImageUrl.builder()
                        .url("https://aigc-files.bigmodel.cn/api/cogview/20250723213827da171a419b9b4906_0.png")
                        .build())
                    .build()))
                .build()
        ))
        .build();
    
    ChatCompletionResponse response = client.chat().createChatCompletion(request);
    
    if (response.isSuccess()) {
        Object reply = response.getData().getChoices().get(0).getMessage().getContent();
        System.out.println(reply);
    } else {
        System.err.println("错误: " + response.getMsg());
    }
}
}

from zhipuai import ZhipuAI

client = ZhipuAI(api_key="your-api-key")  # 填写您自己的APIKey

response = client.chat.completions.create(
    model="glm-4.1v-thinking-flashx",  # 填写需要调用的模型名称
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "请帮我解决这个题目，给出详细过程和答案"
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "传入图片的 url 地址"
                    }
                }
            ]
        }
    ]
)

print(response.choices[0].message)

请注意，GLM-4.1V-Thinking 模型支持图片和文本的多模态输入，您可以在 messages 中同时包含文本和图片。

用户并发权益

API 调用会受到速率限制，当前我们限制的维度是请求并发数量（在途请求任务数量）。不同等级的用户并发保障如下。

模型版本	V0	V1	V2	V3
GLM-4.1V-Thinking-Flash	5	10	15	20
GLM-4.1V-Thinking-FlashX	30	50	80	100

开始使用

模型介绍

模型能力

模型工具

知识库

智能体

平台服务

概览

定位

价格

输入模态

输出模态

上下文窗口

定位

价格

输入模态

输出模态

上下文窗口

能力支持

内置深度思考

视觉理解

流式输出

推荐场景

使用资源

详细介绍

多项视觉语言任务性能 SOTA

强大的推理能力

应用示例

输入

输出

输入

输出

输入

输出

输入

输出

调用示例

用户并发权益

开始使用

模型介绍

模型能力

模型工具

知识库

智能体

平台服务

​ 概览

定位

价格

输入模态

输出模态

上下文窗口

定位

价格

输入模态

输出模态

上下文窗口

​ 能力支持

内置深度思考

视觉理解

流式输出

​ 推荐场景

​ 使用资源

​ 详细介绍

多项视觉语言任务性能 SOTA

强大的推理能力

​ 应用示例

输入

输出

输入

输出

输入

输出

输入

输出

​ 调用示例

​ 用户并发权益

概览

能力支持

推荐场景

使用资源

详细介绍

应用示例

调用示例

用户并发权益