概览
GLM-4V-Plus-0111 是智谱新一代视觉理解模型,具备视觉总结 + 视觉修改 + 推理能力 + 多轮对话 + 时间问答能力,支持视觉问答、图像字幕、视觉定位、复杂目标检测等各类图像和视频理解任务。
价格
4 元 / 百万 Tokens
输入模态
视频、图像、文本
输出模态
文本
上下文窗口
16K
最大输出 Tokens
动态计算:上下文-输入
能力支持
视觉理解
强大的视觉理解能力,支持图片,视频
流式输出
支持实时流式响应,提升用户交互体验
推荐场景
广告创意评估
广告创意评估
支持解析广告视频的视觉元素(如品牌标识露出时长、场景构图合理性),自动分类内容风格并标注情感倾向,结合视频事件分析能力评估目标受众匹配度,为广告策划提供数据化优化建议。
教育课件制作
教育课件制作
分析教学图片、视频内容,自动总结知识点,通过视觉问答解答学生疑问,辅助教师快速生成图文并茂的优质课件。
工业质检
工业质检
对生产线上的产品图像进行复杂目标检测,快速定位瑕疵位置,通过视觉总结生成质检报告,实现高效自动化质量把控。
社交平台审核
社交平台审核
实时抓取视频流与图片库,精准分类媒体平台违规内容并自动分割问题片段,通过视频打标签与事件分析生成结构化审核报告,助力平台高效完成合规性筛查。
使用资源
体验中心:快速测试模型在业务场景上的效果接口文档:API 调用方式
详细介绍
1
更准确的视觉描述能力
GLM-4V-Plus-0111 在不牺牲任何 NLP 任务性能的情况下,实现了视觉语言特征的深度融合;同时得益于原生分辨率输入的优势,加上数据飞轮持续进行幻觉优化,具备更低幻觉和更全面的视觉内容描述能力。除了详细描述的能力,GLM-4V-Plus-0111 还能对图像视频数据进行分类,取标题,打标签,用户可以通过自定义提示词,提升图像视频数据的处理效率或者构建自动化视觉数据流程。
2
精准的时间感知能力
视频数据不同于图像,其具有额外的时间维度。而大部分其他视觉理解模型,由于没有时间戳信息作为输入,因此并不具备时间感知和时间问答的能力。GLM-4V-Plus-0111 的时间问答能力,可以帮助我们快速定位发生特定事件的时间点,从而实现对视频的语义分割和视频自动化剪辑。
3
精细的动作理解能力
当图像分辨率、视频帧率过低的时候,即便是人类也无法感知视频中的微小变动。GLM-4V-Plus-0111 具备更加精细的动作理解能力,精准解析视觉细节。
4
多图像并发支持,超长视频理解
GLM-4V-Plus-0111 具备卓越的多模态理解能力,可同时处理5张图像。通过可变分辨率技术,GLM-4V-Plus-0111 能够适应更多的视频长度和视频分辨率,最高可支持长达2小时的视频理解,突破了视频处理的上限,拓宽视觉理解模型的业务场景。
调用示例
用户并发权益
API 调用会受到速率限制,当前我们限制的维度是请求并发数量(在途请求任务数量)。不同等级的用户并发保障如下。
V0 | V1 | V2 | V3 |
---|---|---|---|
5 | 15 | 30 | 40 |