Skip to main content

概览

GLM-Image 是智谱新旗舰图像生成模型, 模型全程基于国产芯片完成训练,采用独创的「自回归+扩散解码器」混合架构,兼顾全局指令理解与局部细节刻画,克服了海报、PPT、科普图等知识密集型场景生成难题,是面向以 Nano Banana Pro 为代表的新一代「认知型生成」技术范式的一次重要探索。

价格

0.1 元 / 次

输入模态

文本

输出模态

图像

多分辨率

支持 1:1、3:4、4:3、16:9 等
推荐常用尺寸: 1280x1280 、 1568x1056 、 1056x1568 、 1472x1088 、 1088x1472 、 1728x960 、 960x1728。自定义参数: 长宽需在 512px-2048px 范围内,且长宽均需为32的整数倍。
请注意,GLM-Image 模型的输出是图片 URL,您需要通过 URL 下载图片。

推荐场景

能够生成构图完整、视觉层次清晰、整体设计感突出的节日海报与商业宣传图片,并支持文字内容的精准嵌入与稳定呈现,适用于品牌传播、市场推广等多种商业场景。
更擅长绘制包含复杂逻辑关系、流程说明与文字注释的科普插画和原理示意图,能够在保证画面美观的同时,清晰、准确地传达知识结构与核心信息。
在生成电商展示图、故事漫画等多格图画时,GLM-Image 可以有效保持整体画风与主体形象的一致性,同时显著提升多处文字生成的准确率,确保内容连贯、表达统一。
适用于制作封面设计与版式结构较为复杂的社交媒体图文内容,支持灵活排版与多样化表达,让创作过程更加高效,呈现效果更加丰富多元。

使用资源

体验中心:快速测试模型在业务场景上的效果
接口文档:API 调用方式

详细介绍

1

架构创新:读懂指令,写对文字

GLM-image是我们面向「认知型生成」技术范式的一次重要探索, 这是首个开源的工业表现级离散自回归图像生成模型。GLM-Image 引入了「自回归+扩散解码器」混合架构,融合了 9B 的自回归模型与 7B 的 DiT 扩散解码器。前者利用其语言模型的底座优势,专注于提升对指令的语义理解和画面的全局构图;后者配合 Glyph Encoder 的文本编码器,专注于还原图像的高频细节和文字笔画,以此改善模型“提笔忘字”的现象。Description general pipelineDescription decoder formulation
2

开源 SOTA:更擅长文字密集生成任务

基于上述架构创新,GLM-Image在文字渲染的权威榜单中达到开源 SOTA水平。Description
  • CVTG-2K(复杂视觉文字生成) 榜单核心考察模型在图像中同时生成多处文字的准确性。在多区域文字生成准确率上,GLM-Image 凭借 0.9116 的 Word Accuracy(文字准确率)成绩,位列开源模型前列。在NED(归一化编辑距离)指标上,GLM-Image同样以0.9557领先,表明其生成的文字与目标文字高度一致,错字、漏字情况更少。
  • LongText-Bench(长文本渲染) 榜单考察模型渲染长文本、多行文字的准确性,覆盖招牌、海报、PPT、对话框等8种文字密集场景,并分设中英双语测试,GLM-Image以英文0.9524、中文0.9788的成绩位列开源模型前列。
3

首个国产芯片训练出的 SOTA 多模态模型

GLM-Image 是我们对国产计算生态的一次深度探索与验证。从早期的数据预处理到最终的大规模预训练,模型构建的全流程均在昇腾Atlas 800T A2设备上完成。GLM-Image 是首个在国产芯片上完成全流程训练的SOTA多模态模型,验证了在国产全栈算力底座上训练高性能多模态生成模型的可行性。我们希望这一实践能为社区挖掘国产算力潜力提供有价值的参考。Description

应用示例

Prompt

竖版手工剪贴簿风格的图像。顶部是一条亮红色粗糙撕裂边缘的纸质横幅,用半透明和纸胶带斜着固定,左上角夹着金色回形针,压着一小块写有「首发」的碎纸。横幅上用粗黑体手工剪报风写着主标题「GLM-Image 开源:国产芯片炼出图像生成 SOTA」,标题周围用黑色马克笔画着放射线和手绘画笔调色盘图标。 背景是拼贴的AI生成图片碎片、芯片电路图纹理、水彩晕染和浅蓝色卡纸。左侧有一个带磨损金属边的数码相框,用透明胶带斜贴,相框内大字写着「自回归 + 扩散解码器」,副标题「9B 自回归理解指令 + 7B DiT 精绘细节」,背景是文字prompt气泡到精美图像的箭头连接图,边缘有手绘箭头标注「读懂指令」「写对文字」。 右侧散落三张不同颜色的撕裂纸条便利贴,被和纸胶带交叉固定。配有芯片实物照片剪影加华为logo小贴纸、中文艺术字海报截图、多分辨率图像网格等插图。三个撕裂纸条标签带粗黑描边:「昇腾 A2 + 昇思 MindSpore:全程国产训练」「CVTG-2K & LongText-Bench:文字渲染开源第一」「384×384 到 2048×2048:任意比例原生支持」。旁边还有一条窄蓝色撕裂纸条写着「认知型生成:知识 + 推理新范式」,上面有马克笔波浪线和星星。 底部是一整条深蓝色撕裂纸带,印着电路纹理,用和纸胶带固定。通栏大标题「从”画个图”到”懂你想要什么”的认知型生成引擎」

生成图片

Description

调用示例

调用示例
curl -X POST "https://open.bigmodel.cn/api/paas/v4/images/generations" \
    -H "Authorization: Bearer YOUR_API_KEY" \
    -H "Content-Type: application/json" \
    -d '{
        "model": "glm-image",
        "prompt": "一只可爱的小猫咪,坐在阳光明媚的窗台上,背景是蓝天白云",
        "size": "1280x1280"
    }'