Skip to main content

概览

GLM-4.6V 是 GLM 系列在多模态方向上的一次重要迭代,它将训练时上下文窗口提升到128k tokens,在视觉理解精度上达到同参数规模 SOTA,并首次在模型架构中将 Function Call(工具调用)能力原生融入视觉模型,打通从「视觉感知」到「可执行行动(Action)」的链路,为真实业务场景中的多模态 Agent 提供统一的技术底座。

定位

旗舰视觉推理

输入模态

视频、图像、文本、文件

输出模态

文本

上下文窗口

128K
GLM-4.6V 价格详情请前往价格界面

能力支持

推荐场景

  • 图片理解
  • 视频理解
  • 文档/复杂图表问答
图片OCR信息提取、图片内容理解与其相关属性提取
典型场景功能项能力描述
发票、证件、手写表单录入通用OCR识别支持印刷体、手写体、楷体、艺术字等
工程造价清单、海关报关单、财务报表复杂表格解析多层表头、合并单元格、跨页表格智能识别
手机随手拍、现场拍摄单据抗干扰识别应对透视变形、模糊、光照不均、复杂背景、折痕、污渍等干扰场景
商品价格采集、洗衣工厂分拣、货架陈列检测商品属性识别自动识别品牌、类目、材质、颜色、款式等多维属性
社交平台内容打标、优质内容筛选、广告素材分析图像内容分析识别图片中的场景类型、人物行为、氛围情绪、拍摄角度等高阶语义
手机屏幕质检、商品质控、工业检测瑕疵缺陷检测检测污渍、破损、变形、色差、划痕等质量问题
AIGC社区辅助用户生成相似风格图片、设计素材库的风格化标签提取、创意灵感库构建图片反推提示词(Image2Prompt)深度理解画面内容、风格、构图、光影,反向生成高质量的AI绘画提示词,便于复用或二次创作
养殖企业、工程施工现场物体检测与计数精准识别并定位图片或视频画面中的一个或多个特定目标物体,返回每个目标的位置坐标、尺寸和类别,并支持对指定类别物体进行高精度计数,尤其适用于目标密集、遮挡、尺寸多变的复杂场景。

使用资源

体验中心:快速测试模型在业务场景上的效果
接口文档:API 调用方式
MCP 工具
  • 万物识别 MCP:能够对图片中的地点与人物信息进行快速识别与分析。支持整图识别和对图片局部区域进行精准识别
  • 图像搜索 MCP:能够快速返回图片及网页相关信息,支持文本搜索、图片搜索、反向图片搜索及区域搜索等多种检索方式
  • 图像处理 MCP:提供便捷、高效的图像处理(如裁剪、获取Url、画框等)能力

详细介绍

1

原生多模态工具调用

传统工具调用大多基于纯文本,在面对图像、视频、复杂文档等多模态内容时,需要多次中间转换,带来信息损失和工程复杂度。 GLM-4.6V 从设计之初就围绕 「图像即参数,结果即上下文」 ,构建了原生多模态工具调用能力:
  • 输入多模态:图像、截图、文档页面等可以直接作为工具参数,无需先转为文字描述再解析,减少链路损耗。
  • 输出多模态:对于工具返回的统计图表、渲染后网页截图、检索到的商品图片等结果,模型能够再次进行视觉理解,将其纳入后续推理链路。 模型原生支持基于视觉输入的工具调用,完整打通从感知到理解到执行的闭环。这使得 GLM-4.6V 能够应对图文混排输出、商品识别与好价推荐、以及辅助型 Agent 场景等更复杂的视觉任务。
  • 场景1:智能图文混排与内容创作
  • 场景2:视觉驱动的识图购物与导购 Agent
  • 场景3:前端复刻与多轮视觉交互开发
  • 场景4:长上下文的文档与视频理解
在内容创作与知识分发场景中,GLM-4.6V 可以从多模态输入中,自动构建高质量图文输出:无论是直接输入图文混杂的论文、研报、PPT,还是只给出一个主题,模型都能生成结构清晰、图文并茂的社交媒体内容。
  • 复杂图文理解:接收包含文本、图表、公式的文档,准确抽取结构化关键信息。
  • 多模态工具调用:在生成内容过程中,自动调用检索/搜索类工具,为每一段落寻找候选图片,或从原文中截取关键配图。
  • 图文混排输出与质量控制:对候选图片进行「视觉审核」,评估其与文字内容的相关性与质量,自动过滤无关或低质图片,输出可直接用于公众号、社交媒体或知识库的结构化图文结果。
这一流程中,多模态理解、工具调用与质量控制均由 GLM-4.6V 模型独立在同一推理链路内完成。⬆️案例1:仅输入主题,生成图文资讯⬆️案例2:输入论文,生成图文并茂的科普文章
2

同规模开源 SOTA

GLM-4.6V 在 MMBench、MathVista、OCRBench 等 30+ 主流多模态评测基准 上进行了验证,较上一代模型取得显著提升。在同等参数规模下,模型在多模态交互、逻辑推理和长上下文等关键能力上取得 SOTA 表现。其中9B版本的GLM-4.6V-Flash整体表现超过Qwen3-VL-8B,106B参数12B激活的GLM-4.6V表现比肩2倍参数量的Qwen3-VL-235B。Description

调用示例

基础与流式

  • cURL
  • Python
  • Java
  • Python(旧)
基础调用
curl -X POST \
  https://open.bigmodel.cn/api/paas/v4/chat/completions \
  -H "Authorization: Bearer your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-4.6v",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image_url",
            "image_url": {
              "url": "https://cloudcovert-1305175928.cos.ap-guangzhou.myqcloud.com/%E5%9B%BE%E7%89%87grounding.PNG"
            }
          },
          {
            "type": "text",
            "text": "Where is the second bottle of beer from the right on the table?  Provide coordinates in [[xmin,ymin,xmax,ymax]] format"
          }
        ]
      }
    ],
    "thinking": {
      "type":"enabled"
    }
  }'
流式调用
curl -X POST \
  https://open.bigmodel.cn/api/paas/v4/chat/completions \
  -H "Authorization: Bearer your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-4.6v",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image_url",
            "image_url": {
              "url": "https://cloudcovert-1305175928.cos.ap-guangzhou.myqcloud.com/%E5%9B%BE%E7%89%87grounding.PNG"
            }
          },
          {
            "type": "text",
            "text": "Where is the second bottle of beer from the right on the table?  Provide coordinates in [[xmin,ymin,xmax,ymax]] format"
          }
        ]
      }
    ],
    "thinking": {
      "type":"enabled"
    },
    "stream": true
  }'

多模态理解

不支持同时理解文件、视频和图像。
  • cURL
  • Python
  • Java
图片理解
curl -X POST \
  https://open.bigmodel.cn/api/paas/v4/chat/completions \
  -H "Authorization: Bearer your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-4.6v",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image_url",
            "image_url": {
              "url": "https://cdn.bigmodel.cn/static/logo/register.png"
            }
          },
          {
            "type": "image_url",
            "image_url": {
              "url": "https://cdn.bigmodel.cn/static/logo/api-key.png"
            }
          },
          {
            "type": "text",
            "text": "What are the pics talk about?"
          }
        ]
      }
    ],
    "thinking": {
      "type": "enabled"
    }
  }'
视频理解
curl -X POST \
  https://open.bigmodel.cn/api/paas/v4/chat/completions \
  -H "Authorization: Bearer your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-4.6v",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "video_url",
            "video_url": {
              "url": "https://cdn.bigmodel.cn/agent-demos/lark/113123.mov"
            }
          },
          {
            "type": "text",
            "text": "What are the video show about?"
          }
        ]
      }
    ],
    "thinking": {
      "type": "enabled"
    }
  }'
文件理解
curl -X POST \
  https://open.bigmodel.cn/api/paas/v4/chat/completions \
  -H "Authorization: Bearer your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-4.6v",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "file_url",
            "file_url": {
              "url": "https://cdn.bigmodel.cn/static/demo/demo2.txt"
            }
          },
          {
            "type": "file_url",
            "file_url": {
              "url": "https://cdn.bigmodel.cn/static/demo/demo1.pdf"
            }
          },
          {
            "type": "text",
            "text": "What are the files show about?"
          }
        ]
      }
    ],
    "thinking": {
      "type": "enabled"
    }
  }'