概览
CogView-4 是智谱首个支持生成汉字的开源文生图模型,在语义理解、图像生成质量、中英文字生成能力等方面全面提升,支持任意长度的中英双语输入,能够生成在给定范围内的任意分辨率图像。
价格
0.06 元 / 次
输入模态
文本
输出模态
图像
推荐场景
餐饮美食宣传
餐饮美食宣传
根据菜品名称、食材特点及风格要求,融入创意文字元素,生成色泽诱人、细节逼真的美食图片,适配菜单设计、外卖平台展示、线下海报等多场景使用。
电商产品配图
电商产品配图
依据商品特点与卖点描述,快速生成高清商品展示图,添加中英促销文字,适配电商平台不同规格的商品页与活动图需求。
游戏素材创作
游戏素材创作
依据游戏世界观与角色设定,产出高分辨率、细节丰富的角色立绘、场景原画等素材,满足多分辨率制作需求。
教育资料配图
教育资料配图
解析教学文本内容,自动生成匹配的插图、场景图,适配各类教育资料的排版与分辨率要求,助力知识可视化呈现。
文旅宣传制作
文旅宣传制作
根据文旅主题,生成不同尺寸的宣传图像,将文字与地域特色视觉元素巧妙结合,提升文旅推广的吸引力。
使用资源
体验中心:快速测试模型在业务场景上的效果接口文档:API 调用方式
详细介绍
1
发布时模型性能达到 SOTA
DPG-Bench (Dense Prompt Graph Benchmark)是一个评估文本到图像生成模型的基准测试,主要关注模型在复杂语义对齐和指令跟随能力方面的表现。CogView-4 发布时期在 DPG-Bench 基准测试中综合评分排名第一,在开源文生图模型中达到 SOTA。

2
更好的中文理解与生成
在技术实现上,CogView-4 将文本编码器从纯英文的 T5 encoder 换为具备双语能力的 GLM-4 encoder,并通过中英双语图文进行训练,使模型具备双语提示词输入能力。CogView-4 支持中英双语提示词输入,尤其擅长理解和遵循中文提示词,大幅降低使用者提示词门槛,是首个能够在画面中生成汉字的开源文生图模型,能更好地满足广告、短视频等领域的创意需求。
3
任意分辨率,任意长度提示词
CogView-4 实现了任意长度的文本描述(caption)和任意分辨率图像的混合训练范式。该模型支持输入任意长度提示词,能够生成范围内任意分辨率图像,不仅使用户创作更加自由,也提升了训练效率。
应用示例
Prompt
特写,商业美食摄影,强烈的室内光,极致的细节,圣诞餐桌,餐桌一角,一个长毛橘色虎斑猫头凑到盘子旁,正在贪婪地闻着圣诞大餐,表情沉醉。桌上有烤鸡、植物、沙拉,香槟酒,镶金边的瓷器茶具。下午的金色光线照向猫咪的侧脸,将食物和它的被毛染上了柔和的金色,背景也有圣诞树。突出食物的质感和猫咪的毛发质感,强烈的光感,温馨的圣诞节日氛围。
生成图片

调用示例
安装 SDK验证安装调用示例
请注意,CogView-4 模型的输出是图片 URL,您需要通过 URL 下载图片。
用户并发权益
API 调用会受到速率限制,当前我们限制的维度是请求并发数量(在途请求任务数量)。不同等级的用户并发保障如下。
V0 | V1 | V2 | V3 |
---|---|---|---|
5 | 10 | 15 | 20 |