新旗舰视觉推理模型 GLM-4.5V 上线,上新期间限时赠送 2000万 Tokens 专属资源包!立即领取

概览

GLM-4.5V 是智谱新一代基于 MOE 架构的视觉推理模型,以106B的总参数量和12B激活参数量,在各类基准测试中达到全球同级别开源多模态模型 SOTA,涵盖图像、视频、文档理解及 GUI 任务等常见任务。

定位

旗舰视觉推理

输入模态

视频、图像、文本、文件

输出模态

文本

上下文窗口

64K
GLM-4.5V 价格详情请前往价格界面

推荐场景

使用资源

体验中心:快速测试模型在业务场景上的效果
接口文档:API调用方式

详细介绍

1

开源多模态SOTA

GLM-4.5V 基于智谱新一代旗舰 GLM-4.5-Air,延续 GLM-4.1V-Thinking 技术路线进行迭代升级,在 41 个公开视觉多模态榜单中综合效果达到同级别开源模型 SOTA 性能,涵盖图像、视频、文档理解及 GUI 任务等常见任务。Description
2

支持 Thinking 和 Non-Thinking

GLM-4.5V 新增“思考模式”开关,用户可在快速响应与深度推理之间自由切换,根据任务需求灵活平衡处理速度与输出质量。

应用示例

输入

prompt:帮我生成这个video中所展示的html code ,需要包含视频中的点击、跳转、交互等

输出

代码略.渲染后的网页截图:Description
Description

调用示例

curl --location 'https://open.bigmodel.cn/api/paas/v4/chat/completions' \
--header 'Authorization: Bearer YOUR_API_KEY' \
--header 'Accept-Language: en-US,en' \
--header 'Content-Type: application/json' \
--data '{
"model": "glm-4.5v",
"messages": [
    {
        "role": "user",
        "content": [
            {
                "type": "image_url",
                "image_url": {
                    "url": "https://cloudcovert-1305175928.cos.ap-guangzhou.myqcloud.com/%E5%9B%BE%E7%89%87grounding.PNG"
                }
            },
            {
                "type": "text",
                "text": "Where is the second bottle of beer from the right on the table?  Provide coordinates in [[xmin,ymin,xmax,ymax]] format"
            }
        ]
    }
],
"thinking": {
    "type":"enabled"
},
"stream": true
}'

用户并发权益

API调用会受到速率限制,当前我们限制的维度是请求并发数量(在途请求任务数量)。不同等级的用户并发保障如下。
模型版本V0V1V2V3V4V5V6V7V8
GLM-4.5V10305080100120150150150