概览
GLM-4.6V 是 GLM 系列在多模态方向上的一次重要迭代,它将训练时上下文窗口提升到128k tokens,在视觉理解精度上达到同参数规模 SOTA,并首次在模型架构中将 Function Call(工具调用)能力原生融入视觉模型,打通从「视觉感知」到「可执行行动(Action)」的链路,为真实业务场景中的多模态 Agent 提供统一的技术底座。
定位
旗舰视觉推理
输入模态
视频、图像、文本、文件
输出模态
文本
上下文窗口
128K
能力支持
深度思考
支持开启或关闭思考模式,可灵活开关深层推理分析
视觉理解
强大的视觉理解能力,支持图片,视频,文件
流式输出
支持实时流式响应,提升用户交互体验
Function Call
强大的工具调用能力,支持多种外部工具集成
上下文缓存
智能缓存机制,优化长对话性能
推荐场景
- 图片理解
- 视频理解
- 文档/复杂图表问答
图片OCR信息提取、图片内容理解与其相关属性提取
| 典型场景 | 功能项 | 能力描述 |
|---|---|---|
| 发票、证件、手写表单录入 | 通用OCR识别 | 支持印刷体、手写体、楷体、艺术字等 |
| 工程造价清单、海关报关单、财务报表 | 复杂表格解析 | 多层表头、合并单元格、跨页表格智能识别 |
| 手机随手拍、现场拍摄单据 | 抗干扰识别 | 应对透视变形、模糊、光照不均、复杂背景、折痕、污渍等干扰场景 |
| 商品价格采集、洗衣工厂分拣、货架陈列检测 | 商品属性识别 | 自动识别品牌、类目、材质、颜色、款式等多维属性 |
| 社交平台内容打标、优质内容筛选、广告素材分析 | 图像内容分析 | 识别图片中的场景类型、人物行为、氛围情绪、拍摄角度等高阶语义 |
| 手机屏幕质检、商品质控、工业检测 | 瑕疵缺陷检测 | 检测污渍、破损、变形、色差、划痕等质量问题 |
| AIGC社区辅助用户生成相似风格图片、设计素材库的风格化标签提取、创意灵感库构建 | 图片反推提示词(Image2Prompt) | 深度理解画面内容、风格、构图、光影,反向生成高质量的AI绘画提示词,便于复用或二次创作 |
| 养殖企业、工程施工现场 | 物体检测与计数 | 精准识别并定位图片或视频画面中的一个或多个特定目标物体,返回每个目标的位置坐标、尺寸和类别,并支持对指定类别物体进行高精度计数,尤其适用于目标密集、遮挡、尺寸多变的复杂场景。 |
使用资源
体验中心:快速测试模型在业务场景上的效果接口文档:API 调用方式 MCP 工具:
- 万物识别 MCP:能够对图片中的地点与人物信息进行快速识别与分析。支持整图识别和对图片局部区域进行精准识别
- 图像搜索 MCP:能够快速返回图片及网页相关信息,支持文本搜索、图片搜索、反向图片搜索及区域搜索等多种检索方式
- 图像处理 MCP:提供便捷、高效的图像处理(如裁剪、获取Url、画框等)能力
详细介绍
1
原生多模态工具调用
传统工具调用大多基于纯文本,在面对图像、视频、复杂文档等多模态内容时,需要多次中间转换,带来信息损失和工程复杂度。
GLM-4.6V 从设计之初就围绕 「图像即参数,结果即上下文」 ,构建了原生多模态工具调用能力:
- 输入多模态:图像、截图、文档页面等可以直接作为工具参数,无需先转为文字描述再解析,减少链路损耗。
- 输出多模态:对于工具返回的统计图表、渲染后网页截图、检索到的商品图片等结果,模型能够再次进行视觉理解,将其纳入后续推理链路。 模型原生支持基于视觉输入的工具调用,完整打通从感知到理解到执行的闭环。这使得 GLM-4.6V 能够应对图文混排输出、商品识别与好价推荐、以及辅助型 Agent 场景等更复杂的视觉任务。
- 场景1:智能图文混排与内容创作
- 场景2:视觉驱动的识图购物与导购 Agent
- 场景3:前端复刻与多轮视觉交互开发
- 场景4:长上下文的文档与视频理解
在内容创作与知识分发场景中,GLM-4.6V 可以从多模态输入中,自动构建高质量图文输出:无论是直接输入图文混杂的论文、研报、PPT,还是只给出一个主题,模型都能生成结构清晰、图文并茂的社交媒体内容。
- 复杂图文理解:接收包含文本、图表、公式的文档,准确抽取结构化关键信息。
- 多模态工具调用:在生成内容过程中,自动调用检索/搜索类工具,为每一段落寻找候选图片,或从原文中截取关键配图。
- 图文混排输出与质量控制:对候选图片进行「视觉审核」,评估其与文字内容的相关性与质量,自动过滤无关或低质图片,输出可直接用于公众号、社交媒体或知识库的结构化图文结果。
2
同规模开源 SOTA
GLM-4.6V 在 MMBench、MathVista、OCRBench 等 30+ 主流多模态评测基准 上进行了验证,较上一代模型取得显著提升。在同等参数规模下,模型在多模态交互、逻辑推理和长上下文等关键能力上取得 SOTA 表现。其中9B版本的GLM-4.6V-Flash整体表现超过Qwen3-VL-8B,106B参数12B激活的GLM-4.6V表现比肩2倍参数量的Qwen3-VL-235B。

调用示例
基础与流式
- cURL
- Python
- Java
- Python(旧)
基础调用流式调用
多模态理解
不支持同时理解文件、视频和图像。
- cURL
- Python
- Java
图片理解视频理解文件理解