文档解析
模型 API
文档解析
使用 GLM-OCR 模型解析文档和图片的布局并提取文本内容。支持图片和PDF文档的OCR识别,返回详细的布局信息和可视化结果。
POST
文档解析
Authorizations
Body
application/json
模型编码:glm-ocr
Available options:
glm-ocr Example:
"glm-ocr"
需要识别的图片或者pdf文档,支持url和base64。支持图片格式:PDF、JPG、PNG。单图≤10MB,PDF≤50MB,最大支持100页
Example:
"https://cdn.bigmodel.cn/static/logo/introduction.png"
是否需要截图信息
是否需要详细布局图片结果信息
传入pdf时,开始解析的页码
Required range:
x >= 1传入pdf时,结束解析的页码
Required range:
x >= 1请求唯一标识符。由用户端传递,ID长度要求:最少6个字符,最多64个字符,建议使用UUID格式确保唯一性,若未提供平台将自动生成。
Required string length:
6 - 64终端用户ID,用于滥用监控。长度:6-128字符
Required string length:
6 - 128Example:
"user_123456"
Response
业务处理成功
任务 ID
Example:
"task_123456789"
请求创建时间,是以秒为单位的 Unix 时间戳
Example:
1727156815
模型名称
Example:
"GLM-OCR"
Markdown 格式的识别结果
Example:
"# 文档标题\n这是文档内容..."
布局详细信息
识别结果图片url
文档基础信息
调用结束时返回的 Token 使用统计。
请求ID
Example:
"req_123456789"