概览

GLM-4V-Plus-0111 是智谱新一代视觉理解模型,具备视觉总结 + 视觉修改 + 推理能力 + 多轮对话 + 时间问答能力,支持视觉问答、图像字幕、视觉定位、复杂目标检测等各类图像和视频理解任务。

价格

4 元 / 百万Tokens

输入模态

视频、图像、文本

输出模态

文本

上下文窗口

16K

最大输出Tokens

动态计算:上下文-输入

推荐场景

使用资源

体验中心:快速测试模型在业务场景上的效果
接口文档:API调用方式

详细介绍

1

更准确的视觉描述能力

GLM-4V-Plus-0111 在不牺牲任何NLP任务性能的情况下,实现了视觉语言特征的深度融合;同时得益于原生分辨率输入的优势,加上数据飞轮持续进行幻觉优化,具备更低幻觉和更全面的视觉内容描述能力。除了详细描述的能力,GLM-4V-Plus-0111 还能对图像视频数据进行分类,取标题,打标签,用户可以通过自定义提示词,提升图像视频数据的处理效率或者构建自动化视觉数据流程。
2

精准的时间感知能力

视频数据不同于图像,其具有额外的时间维度。而大部分其他视觉理解模型,由于没有时间戳信息作为输入,因此并不具备时间感知和时间问答的能力。GLM-4V-Plus-0111 的时间问答能力,可以帮助我们快速定位发生特定事件的时间点,从而实现对视频的语义分割和视频自动化剪辑。
3

精细的动作理解能力

当图像分辨率、视频帧率过低的时候,即便是人类也无法感知视频中的微小变动。GLM-4V-Plus-0111 具备更加精细的动作理解能力,精准解析视觉细节。
4

多图像并发支持,超长视频理解

GLM-4V-Plus-0111 具备卓越的多模态理解能力,可同时处理5张图像。通过可变分辨率技术,GLM-4V-Plus-0111 能够适应更多的视频长度和视频分辨率,最高可支持长达2小时的视频理解,突破了视频处理的上限,拓宽视觉理解模型的业务场景。

调用示例

安装 SDK
# 安装最新版本
pip install zai-sdk
# 或指定版本
pip install zai-sdk==0.0.1
验证安装
import zai
print(zai.__version__)

上传图片URL

from zai import ZhipuAiClient
client = ZhipuAiClient(api_key="") # 请填写您自己的APIKey
response = client.chat.completions.create(
    model="glm-4v",  # 请填写您要调用的模型名称
    messages=[
        {
                'role': 'user',
                'content': [
                    {'type': 'text', 'text': "What's in this image?"},
                    {'type': 'image_url', 'image_url': {'url': f'https://img.iplaysoft.com/wp-content/uploads/2019/free-images/free_stock_photo.jpg'}},
                ],
            }
    ],
    temperature=0.5,
    max_tokens=2000,
)
print(response.choices[0].message.content)

上传图片Base64

import base64
from zai import ZhipuAiClient

img_path = "/Users/YourComputer/xxxx.jpeg"
with open(img_path, "rb") as img_file:
    img_base = base64.b64encode(img_file.read()).decode("utf-8")

client = ZhipuAiClient(api_key="YOUR API KEY")  # 填写您自己的APIKey
response = client.chat.completions.create(
    model="glm-4v-plus-0111",  # 填写需要调用的模型名称
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": img_base
                    }
                },
                {
                    "type": "text",
                    "text": "请描述这个图片"
                }
            ]
        }
    ]
)
print(response.choices[0].message.content)

多轮图片对话

from zai import ZhipuAiClient

client = ZhipuAiClient(api_key="YOUR API KEY")  # 填写您自己的APIKey
response = client.chat.completions.create(
    model="glm-4v-plus-0111",  # 填写需要调用的模型名称
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://cdn.bigmodel.cn/xxxxxx.png"
                    }
                },
                {
                    "type": "text",
                    "text": "图中有什么"
                }
            ]
        },
        {
            "role": "assistant",
            "content": [
                {
                    "type": "text",
                    "text": (
                        "这是一幅描绘自然风景的画,展现了一片宁静的湖泊,湖水呈现出深浅不一的蓝绿色调。"
                        "湖边长着一棵盛开的樱花树,粉白色的花朵在阳光下显得格外鲜艳。树下有一位身穿蓝色衣服的人坐在船上,"
                        "似乎正在享受这美好的时光。\n\n"
                        "背景是连绵起伏的山脉,山体被绿色的植被覆盖,山顶则被云雾缭绕,增添了几分神秘感。"
                        "远处还可以看到一座小亭子,它坐落在湖边的岩石上,与周围的自然环境和谐相融。\n\n"
                        "整个画面给人一种宁静、和谐的感觉,仿佛置身于一个世外桃源之中。"
                    )
                }
            ]
        },
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://cdn.bigmodel.cn/xxxxxxx.jpeg"
                    }
                },
                {
                    "type": "text",
                    "text": "这个图与上面图有什么不一样"
                }
            ]
        },
        {
            "role": "assistant",
            "content": [
                {
                    "type": "text",
                    "text": (
                        "第一张图和第二张图在画面内容、构图、色彩等方面都有很大的不同,形成鲜明的对比。\n\n"
                        "1.第一张图是风景画,主要描绘了自然风景,如樱花树、湖泊、山脉等,色彩丰富,充满春天的气息,"
                        "而第二张图是描绘长城在冬季的风景照片,长城在白雪覆盖的山脉中蜿蜒盘旋,整体色调偏冷,"
                        "给人一种寒冷、宁静的感觉。\n\n"
                        "2.构图上,第一张图采用对称式构图,以樱花树为中心,两侧的景物相互呼应,形成平衡和谐的画面效果,"
                        "第二张图则采用对角线构图,长城作为视觉引导线,引导观众的视线穿越整个画面,增加画面的深度和动态感。\n\n"
                        "整体来看,这两张图在画面内容、色彩、构图和氛围上都呈现出明显的对比,一张是充满生机和色彩的春日风景画,"
                        "另一张是宁静而神秘的冬日长城风景照。"
                    )
                }
            ]
        },
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://cdn.bigmodel.cn/xxxxxxx.jpeg"
                    }
                },
                {
                    "type": "text",
                    "text": "这个图与上一张图有什么区别"
                }
            ]
        }
    ]
)
print(response.choices[0].message.content)

用户并发权益

API调用会受到速率限制,当前我们限制的维度是请求并发数量(在途请求任务数量)。不同等级的用户并发保障如下。
V0V1V2V3
5153040