Skip to main content

概览

GLM-5V-Turbo 是智谱首个多模态 Coding 基座模型,面向视觉编程任务打造。能够原生处理图片、视频、文本等多模态输入,同时擅长长程规划、复杂编程和动作执行;深度适配 Agent 工作流,能够与 Claude Code、OpenClaw 等 Agent 深度协同,完成”看懂环境→规划动作→执行任务”的完整闭环。

定位

多模态 Coding 基座

输入模态

视频、图像、文本、文件

输出模态

文本

上下文窗口

200K

最大输出 Tokens

128K
GLM-5V-Turbo 价格详情请前往价格界面

能力支持

深度思考

支持开启或关闭思考模式,可灵活开关深层推理分析

视觉理解

强大的视觉理解能力,支持图片,视频,文件

流式输出

支持实时流式响应,提升用户交互体验

Function Call

强大的工具调用能力,支持多种外部工具集成

上下文缓存

智能缓存机制,优化长对话性能

推荐场景

发送设计稿或参考图,模型直接理解布局、配色、组件层级与交互逻辑,生成完整可运行的前端工程,原型图还原结构与功能,高保真设计稿追求像素级视觉一致性。
支持结合 Claude Code 等框架,自主浏览目标网站、梳理页面跳转关系、采集视觉素材与交互细节,并基于探索结果直接生成代码,实现从“看图复刻”到“自主探索复刻”的升级。
支持将 Bug 页面截图输入,自动识别样式错位、组件重叠、颜色偏差等渲染异常,辅助定位前端问题并生成修复代码,提升调试效率。
接入 GLM-5V-Turbo 后,OpenClaw 可以看懂网页布局、GUI 元素和图表信息,帮助 Agent 在真实环境中完成感知、规划与执行一体化的复杂任务。

使用资源

体验中心:快速测试模型在业务场景上的效果
接口文档:API 调用方式

详细介绍

1

多模态 Coding 基座

在多模态 Coding 与 Agentic 任务,以及纯文本 Coding 两大维度的评测基准上,GLM-5V-Turbo 均以更小尺寸取得了优秀表现。
GLM-5V-Turbo 在设计稿还原、视觉代码生成、多模态检索与问答、视觉探查等基准上均取得领先表现;在衡量真实 GUI 环境操控能力的 AndroidWorld、WebVoyager 等基准上同样表现突出。Description
2

四个层面的系统性升级

GLM-5V-Turbo 能够兼顾视觉与 Coding 能力,并以更小的参数量取得性能领先,关键在于模型架构、训练方法、数据构造、工具链四个层面的系统性升级:
  • 原生多模态融合:从预训练到后训练持续强化视觉与文本协同,结合新一代 CogViT 视觉编码器与推理友好的 MTP 结构,提升多模态理解与推理效率。
  • 30+ 任务协同强化学习:在强化学习阶段同时优化 30+ 任务类型,同时覆盖 STEM、grounding、video、GUI Agent、coding Agent 等类型,带来更稳健的感知、推理与 Agentic 执行能力提升。
  • Agentic数据与任务构造:围绕 Agent 数据稀缺和验证困难问题,构建多层级、可控、可验证的数据体系,并在预训练阶段注入 Agentic 元能力,增强动作预测与执行表现。
  • 多模态工具链扩展:新增画框、截图、读网页(含图片识别)等多模态 tools,将 Agent 能力从纯文本扩展到视觉交互,支持更完整的感知—规划—执行闭环。

官方 Skill

除视觉编程与龙虾任务外,GLM-5V-Turbo 在多模态搜索、深度研究、GUI Agent、感知 Grounding 等更广泛的 Agentic 场景中也取得了显著提升。为此,我们提供了一组官方 Skills。
自动分析图像内容并生成自然语言描述的能力;不仅能识别图像中的物体,还能理解物体间的关系、场景氛围及动作,将其转化为准确、流畅的文字说明
根据自然语言描述,在图像中精准定位对应物体或区域的能力;建立了文本与视觉像素之间的对应关系,通常以边界框的形式标出目标位置,用于实现更具象化的交互体验或辅助细粒度的图像分析
根据用户提供的文档资料(如 PDF、Word 等),理解并提取关键信息,进而生成特定格式文本的能力;可确保生成内容紧扣文档事实,常用于文档解读、报告生成、新闻稿撰写或方案策划等
阅读候选人简历,并将其与职位要求进行智能比对的能力;快速提取教育背景、工作经历、技能标签等关键要素,评估人岗匹配度并给出排序或建议,大幅提升招聘效率
根据参考图片/视频和意图描述,自动构建高质量、结构化Prompt的能力;通过理解图片/视频内容和特点、优化措辞、补充细节等,生成更易于被AI模型理解的指令,从而激发模型产出更精准、优质的图片/视频生成结果
此外,我们基于之前发布的专用模型 GLM-OCR 和 GLM-Image 制作了 5 个Skills,以实现对更多场景和任务的支持。 上述 Skill 已上线 ClawHub,立即安装

应用示例

输入

Description
请根据图片里的设计稿 复刻出移动端的页面,左边为欢迎页,中间为首页图,你还需要mock出剩下两个页面。

输出

Description Description Description Description Description

调用示例

基础与流式

基础调用
curl -X POST \
  https://open.bigmodel.cn/api/paas/v4/chat/completions \
  -H "Authorization: Bearer your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5v-turbo",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image_url",
            "image_url": {
              "url": "https://cloudcovert-1305175928.cos.ap-guangzhou.myqcloud.com/%E5%9B%BE%E7%89%87grounding.PNG"
            }
          },
          {
            "type": "text",
            "text": "Where is the second bottle of beer from the right on the table?  Provide coordinates in [[xmin,ymin,xmax,ymax]] format"
          }
        ]
      }
    ],
    "thinking": {
      "type":"enabled"
    }
  }'
流式调用
curl -X POST \
  https://open.bigmodel.cn/api/paas/v4/chat/completions \
  -H "Authorization: Bearer your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5v-turbo",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image_url",
            "image_url": {
              "url": "https://cloudcovert-1305175928.cos.ap-guangzhou.myqcloud.com/%E5%9B%BE%E7%89%87grounding.PNG"
            }
          },
          {
            "type": "text",
            "text": "Where is the second bottle of beer from the right on the table?  Provide coordinates in [[xmin,ymin,xmax,ymax]] format"
          }
        ]
      }
    ],
    "thinking": {
      "type":"enabled"
    },
    "stream": true
  }'

多模态理解

不支持同时理解文件、视频和图像。
图片理解
curl -X POST \
  https://open.bigmodel.cn/api/paas/v4/chat/completions \
  -H "Authorization: Bearer your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5v-turbo",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image_url",
            "image_url": {
              "url": "https://cdn.bigmodel.cn/static/logo/register.png"
            }
          },
          {
            "type": "image_url",
            "image_url": {
              "url": "https://cdn.bigmodel.cn/static/logo/api-key.png"
            }
          },
          {
            "type": "text",
            "text": "What are the pics talk about?"
          }
        ]
      }
    ],
    "thinking": {
      "type": "enabled"
    }
  }'
视频理解
curl -X POST \
  https://open.bigmodel.cn/api/paas/v4/chat/completions \
  -H "Authorization: Bearer your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5v-turbo",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "video_url",
            "video_url": {
              "url": "https://cdn.bigmodel.cn/agent-demos/lark/113123.mov"
            }
          },
          {
            "type": "text",
            "text": "What are the video show about?"
          }
        ]
      }
    ],
    "thinking": {
      "type": "enabled"
    }
  }'
文件理解
curl -X POST \
  https://open.bigmodel.cn/api/paas/v4/chat/completions \
  -H "Authorization: Bearer your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5v-turbo",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "file_url",
            "file_url": {
              "url": "https://cdn.bigmodel.cn/static/demo/demo2.txt"
            }
          },
          {
            "type": "file_url",
            "file_url": {
              "url": "https://cdn.bigmodel.cn/static/demo/demo1.pdf"
            }
          },
          {
            "type": "text",
            "text": "What are the files show about?"
          }
        ]
      }
    ],
    "thinking": {
      "type": "enabled"
    }
  }'