使用 GLM-OCR 模型解析文档和图片的布局并提取文本内容。支持图片和PDF文档的OCR识别,返回详细的布局信息和可视化结果。
模型编码:glm-ocr
glm-ocr "glm-ocr"
需要识别的图片或者pdf文档,支持url和base64。支持图片格式:PDF、JPG、PNG。单图≤10MB,PDF≤50MB,最大支持100页
"https://cdn.bigmodel.cn/static/logo/introduction.png"
是否需要截图信息
是否需要详细布局图片结果信息
传入pdf时,开始解析的页码
x >= 1传入pdf时,结束解析的页码
x >= 1唯一请求标识符,如不提供则自动生成
"req_123456789"
终端用户ID,用于滥用监控。长度:6-128字符
6 - 128"user_123456"
业务处理成功
任务 ID
"task_123456789"
请求创建时间,是以秒为单位的 Unix 时间戳
1727156815
模型名称
"GLM-OCR"
Markdown 格式的识别结果
"# 文档标题\n这是文档内容..."
布局详细信息
识别结果图片url
文档基础信息
调用结束时返回的 Token 使用统计。
请求ID
"req_123456789"