GLM-Image - 智谱AI开放文档

概览

GLM-Image 是智谱新旗舰图像生成模型，模型全程基于国产芯片完成训练，采用独创的「自回归+扩散解码器」混合架构，兼顾全局指令理解与局部细节刻画，克服了海报、PPT、科普图等知识密集型场景生成难题，是面向以 Nano Banana Pro 为代表的新一代「认知型生成」技术范式的一次重要探索。

价格

0.1 元 / 次

输入模态

文本（最大输入 1000 字符）

输出模态

图像

多分辨率

支持 1:1、3:4、4:3、16:9 等

推荐常用尺寸： 1280x1280 、 1568x1056 、 1056x1568 、 1472x1088 、 1088x1472 、 1728x960 、 960x1728。自定义参数： 长宽需在 512px-2048px 范围内，且长宽均需为32的整数倍。

请注意，GLM-Image 模型的输出是图片 URL，您需要通过 URL 下载图片。

使用资源

体验中心

快速测试模型在业务场景上的效果

接口文档

API 调用方式

详细介绍

架构创新：读懂指令，写对文字

GLM-image是我们面向「认知型生成」技术范式的一次重要探索， 这是首个开源的工业表现级离散自回归图像生成模型。GLM-Image 引入了「自回归+扩散解码器」混合架构，融合了 9B 的自回归模型与 7B 的 DiT 扩散解码器。前者利用其语言模型的底座优势，专注于提升对指令的语义理解和画面的全局构图；后者配合 Glyph Encoder 的文本编码器，专注于还原图像的高频细节和文字笔画，以此改善模型“提笔忘字”的现象。 Description

general pipeline Description

decoder formulation

开源 SOTA：更擅长文字密集生成任务

基于上述架构创新，GLM-Image在文字渲染的权威榜单中达到开源 SOTA水平。 Description

CVTG-2K（复杂视觉文字生成） 榜单核心考察模型在图像中同时生成多处文字的准确性。在多区域文字生成准确率上，GLM-Image 凭借 0.9116 的 Word Accuracy（文字准确率）成绩，位列开源模型前列。在NED（归一化编辑距离）指标上，GLM-Image 同样以 0.9557 胜出，表明其生成的文字与目标文字高度一致，错字、漏字情况更少。
LongText-Bench（长文本渲染） 榜单考察模型渲染长文本、多行文字的准确性，覆盖招牌、海报、PPT、对话框等8 种文字密集场景，并分设中英双语测试，GLM-Image以英文0.9524、中文0.9788的成绩位列开源模型前列。

首个国产芯片训练出的 SOTA 多模态模型

GLM-Image 是我们对国产计算生态的一次深度探索与验证。从早期的数据预处理到最终的大规模预训练，模型构建的全流程均在昇腾Atlas 800T A2设备上完成。GLM-Image 是首个在国产芯片上完成全流程训练的SOTA多模态模型，验证了在国产全栈算力底座上训练高性能多模态生成模型的可行性。我们希望这一实践能为社区挖掘国产算力潜力提供有价值的参考。 Description

应用示例

科普插画
高质量人像
社交媒体图文
商业海报

Prompt

竖版手工剪贴簿风格的图像。顶部是一条亮红色粗糙撕裂边缘的纸质横幅，用半透明和纸胶带斜着固定，左上角夹着金色回形针，压着一小块写有「首发」的碎纸。横幅上用粗黑体手工剪报风写着主标题「GLM-Image 开源：国产芯片炼出图像生成 SOTA」，标题周围用黑色马克笔画着放射线和手绘画笔调色盘图标。背景是拼贴的AI生成图片碎片、芯片电路图纹理、水彩晕染和浅蓝色卡纸。左侧有一个带磨损金属边的数码相框，用透明胶带斜贴，相框内大字写着「自回归 + 扩散解码器」，副标题「9B 自回归理解指令 + 7B DiT 精绘细节」，背景是文字prompt气泡到精美图像的箭头连接图，边缘有手绘箭头标注「读懂指令」「写对文字」。右侧散落三张不同颜色的撕裂纸条便利贴，被和纸胶带交叉固定。配有芯片实物照片剪影加华为logo小贴纸、中文艺术字海报截图、多分辨率图像网格等插图。三个撕裂纸条标签带粗黑描边：「昇腾 A2 + 昇思 MindSpore：全程国产训练」「CVTG-2K & LongText-Bench：文字渲染开源第一」「384×384 到 2048×2048：任意比例原生支持」。旁边还有一条窄蓝色撕裂纸条写着「认知型生成：知识 + 推理新范式」，上面有马克笔波浪线和星星。底部是一整条深蓝色撕裂纸带，印着电路纹理，用和纸胶带固定。通栏大标题「从”画个图”到”懂您想要什么”的认知型生成引擎」

生成图片

调用示例

cURL
Python
Java

调用示例

curl -X POST "https://open.bigmodel.cn/api/paas/v4/images/generations" \
    -H "Authorization: Bearer YOUR_API_KEY" \
    -H "Content-Type: application/json" \
    -d '{
        "model": "glm-image",
        "prompt": "一只可爱的小猫咪，坐在阳光明媚的窗台上，背景是蓝天白云",
        "size": "1280x1280"
    }'

安装 SDK

# 安装最新版本
pip install zai-sdk
# 或指定版本
pip install zai-sdk==0.2.1

验证安装

import zai
print(zai.__version__)

调用示例

from zai import ZhipuAiClient
client = ZhipuAiClient(api_key="YOUR_API_KEY")  # 请填写您自己的 APIKey
response = client.images.generations(
    model="glm-image",  # 请填写您要调用的模型名称
    prompt="一只可爱的小猫咪，坐在阳光明媚的窗台上，背景是蓝天白云",
)
print(response.data[0].url)

安装 SDKMaven

<dependency>
    <groupId>ai.z.openapi</groupId>
    <artifactId>zai-sdk</artifactId>
    <version>0.3.2</version>
</dependency>

Gradle (Groovy)

implementation 'ai.z.openapi:zai-sdk:0.3.2'

调用示例

import ai.z.openapi.ZhipuAiClient;
import ai.z.openapi.core.Constants;
import ai.z.openapi.service.image.CreateImageRequest;
import ai.z.openapi.service.image.ImageResponse;

public class GlmImageExample {
    public static void main(String[] args) {
        ZhipuAiClient client = ZhipuAiClient.builder().ofZHIPU().apiKey("YOUR_API_KEY").build();
        // Create image generation request
        CreateImageRequest request = CreateImageRequest.builder()
            .model("glm-image")
            .prompt("一只可爱的小猫咪，坐在阳光明媚的窗台上，背景是蓝天白云")
            .size("1280x1280")
            .build();
        ImageResponse response = client.images().createImage(request);
        System.out.println(response.getData());
    }
}

​概览

价格

输入模态

输出模态

多分辨率

​推荐场景

​使用资源

体验中心

接口文档

​详细介绍

架构创新：读懂指令，写对文字

开源 SOTA：更擅长文字密集生成任务

首个国产芯片训练出的 SOTA 多模态模型

​应用示例

Prompt

生成图片

Prompt

生成图片

Prompt

生成图片

Prompt

生成图片

​调用示例

概览

推荐场景

使用资源

详细介绍

应用示例

调用示例