概览
GLM-Image 是智谱新旗舰图像生成模型, 模型全程基于国产芯片完成训练,采用独创的「自回归+扩散解码器」混合架构,兼顾全局指令理解与局部细节刻画,克服了海报、PPT、科普图等知识密集型场景生成难题,是面向以 Nano Banana Pro 为代表的新一代「认知型生成」技术范式的一次重要探索。
价格
0.1 元 / 次
输入模态
文本
输出模态
图像
多分辨率
支持 1:1、3:4、4:3、16:9 等
请注意,GLM-Image 模型的输出是图片 URL,您需要通过 URL 下载图片。
推荐场景
商业海报
商业海报
能够生成构图完整、视觉层次清晰、整体设计感突出的节日海报与商业宣传图片,并支持文字内容的精准嵌入与稳定呈现,适用于品牌传播、市场推广等多种商业场景。
科普插画
科普插画
更擅长绘制包含复杂逻辑关系、流程说明与文字注释的科普插画和原理示意图,能够在保证画面美观的同时,清晰、准确地传达知识结构与核心信息。
多格图画
多格图画
在生成电商展示图、故事漫画等多格图画时,GLM-Image 可以有效保持整体画风与主体形象的一致性,同时显著提升多处文字生成的准确率,确保内容连贯、表达统一。
社交媒体图文
社交媒体图文
适用于制作封面设计与版式结构较为复杂的社交媒体图文内容,支持灵活排版与多样化表达,让创作过程更加高效,呈现效果更加丰富多元。
使用资源
体验中心:快速测试模型在业务场景上的效果接口文档:API 调用方式
详细介绍
1
架构创新:读懂指令,写对文字
GLM-image是我们面向「认知型生成」技术范式的一次重要探索, 这是首个开源的工业表现级离散自回归图像生成模型。GLM-Image 引入了「自回归+扩散解码器」混合架构,融合了 9B 的自回归模型与 7B 的 DiT 扩散解码器。前者利用其语言模型的底座优势,专注于提升对指令的语义理解和画面的全局构图;后者配合 Glyph Encoder 的文本编码器,专注于还原图像的高频细节和文字笔画,以此改善模型“提笔忘字”的现象。
general pipeline
decoder formulation
general pipeline
decoder formulation2
开源 SOTA:更擅长文字密集生成任务
基于上述架构创新,GLM-Image在文字渲染的权威榜单中达到开源 SOTA水平。

- CVTG-2K(复杂视觉文字生成) 榜单核心考察模型在图像中同时生成多处文字的准确性。在多区域文字生成准确率上,GLM-Image 凭借 0.9116 的 Word Accuracy(文字准确率)成绩,位列开源模型前列。在NED(归一化编辑距离)指标上,GLM-Image同样以0.9557领先,表明其生成的文字与目标文字高度一致,错字、漏字情况更少。
- LongText-Bench(长文本渲染) 榜单考察模型渲染长文本、多行文字的准确性,覆盖招牌、海报、PPT、对话框等8种文字密集场景,并分设中英双语测试,GLM-Image以英文0.9524、中文0.9788的成绩位列开源模型前列。
3
首个国产芯片训练出的 SOTA 多模态模型
GLM-Image 是我们对国产计算生态的一次深度探索与验证。从早期的数据预处理到最终的大规模预训练,模型构建的全流程均在昇腾Atlas 800T A2设备上完成。GLM-Image 是首个在国产芯片上完成全流程训练的SOTA多模态模型,验证了在国产全栈算力底座上训练高性能多模态生成模型的可行性。我们希望这一实践能为社区挖掘国产算力潜力提供有价值的参考。

应用示例
- 科普插画
- 高质量人像
- 社交媒体图文
- 商业海报
Prompt
竖版手工剪贴簿风格的图像。顶部是一条亮红色粗糙撕裂边缘的纸质横幅,用半透明和纸胶带斜着固定,左上角夹着金色回形针,压着一小块写有「首发」的碎纸。横幅上用粗黑体手工剪报风写着主标题「GLM-Image 开源:国产芯片炼出图像生成 SOTA」,标题周围用黑色马克笔画着放射线和手绘画笔调色盘图标。
背景是拼贴的AI生成图片碎片、芯片电路图纹理、水彩晕染和浅蓝色卡纸。左侧有一个带磨损金属边的数码相框,用透明胶带斜贴,相框内大字写着「自回归 + 扩散解码器」,副标题「9B 自回归理解指令 + 7B DiT 精绘细节」,背景是文字prompt气泡到精美图像的箭头连接图,边缘有手绘箭头标注「读懂指令」「写对文字」。
右侧散落三张不同颜色的撕裂纸条便利贴,被和纸胶带交叉固定。配有芯片实物照片剪影加华为logo小贴纸、中文艺术字海报截图、多分辨率图像网格等插图。三个撕裂纸条标签带粗黑描边:「昇腾 A2 + 昇思 MindSpore:全程国产训练」「CVTG-2K & LongText-Bench:文字渲染开源第一」「384×384 到 2048×2048:任意比例原生支持」。旁边还有一条窄蓝色撕裂纸条写着「认知型生成:知识 + 推理新范式」,上面有马克笔波浪线和星星。
底部是一整条深蓝色撕裂纸带,印着电路纹理,用和纸胶带固定。通栏大标题「从”画个图”到”懂你想要什么”的认知型生成引擎」
生成图片

调用示例
- cURL
- Python
- Java
调用示例


