Skip to main content

产品简介

本文档旨在帮助开发者、高级用户及系统集成方快速了解并高效使用 OCR 文件解析工具,实现对图片中文字内容的自动识别与结构化输出。

产品简介

OCR 文件解析工具支持对各类图像中的文本内容进行识别。可处理印刷体、手写体,并支持中、英、日、韩、法等 20+ 种语言类型。工具能够输出高精度文本识别结果及候选字置信度信息,适用于手写稿件解析、文档数字化、图片文字抽取等多种业务场景。

使用说明

  • 需要低延迟、即时拿到解析结果的在线处理链路(如用户上传后立刻问答、预览)。
  • 单次文件不大、结构复杂度适中,或对纯文本抽取需求为主。
支持的文件格式与大小
服务项目说明
支持的文件类型image(图片文件)
支持的格式PNG、JPG、JPEG、BMP
最大文件大小8M
请求参数说明
参数名称字段类型是否必填说明
fileFile图片文件(支持 PNG/JPG/JPEG/BMP),8M 内
tool_typeString固定为 hand_write,表示执行手写体识别
language_typeString根据所识别文件可指定识别语言,默认为 CHN_ENG,自动检测语言:AUTO,可选值包括:ENG, JAP, KOR, FRE, SPA, POR, GER, ITA, RUS, DAN, DUT, MAL, SWE, IND, POL, ROM, TUR, GRE, HUN, THA, VIE, ARA, HIN
probabilityBoolean是否返回识别结果中每一行的置信度,默认为false,不返回置信度
输出参数说明
参数名称字段类型说明
task_idString任务 ID
messageString提示信息,例如成功或错误描述
statusString状态标识
words_result_numInteger识别结果数,表示words_result的元素个数
words_resultobject文本识别结果对象
├── locationobject每行的坐标,包含:
- left: 表示定位位置的长方形左上顶点的水平坐标
- top:表示定位位置的长方形左上顶点的垂直坐标
- width:表示定位位置的长方形的宽度
- height:表示定位位置的长方形的高度
├── wordsString每一行的识别结果
└── probabilityobject当 probability=true 时返回该字段,表示识别结果中每一行的置信度值,包含:
- average: 行置信度平均值
- variance:行置信度方差
- min:行置信度最小值

计费方式

计费规则OCR 解析工具根据识别过程中调用量中的页数收取费用,当前支持单次单页识别。
单价0.01 元 / 次(页)
计费计算方式请求次数(页数) × 单价 = 费用

使用流程说明

  1. 准备图片文件(确保格式与大小符合要求)
  2. 根据需要设置可选识别参数(如 tool_type、language_type、probability),当已知文件语言时,建议设置对应的 language_type 以提高识别准确率
  3. 调用 OCR 解析接口
  4. 获取返回的 JSON 结果
  5. 从 words_result 中读取识别内容
  6. 根据需要展示、存储或进一步处理文本

最佳实践与建议

  • 上传图像尽量保持 清晰、无遮挡、无遮挡反光,提升识别准确率。
  • 手写体建议使用 黑色或深色墨迹,背景尽量为浅色。
  • 建议对返回结果中的置信度进行业务层过滤,以提升整体系统可信度。

调用示例

  • cURL
  • Python
  • Java
  • 响应示例
curl --location --request POST 'https://open.bigmodel.cn/api/paas/v4/files/ocr' \
--header  'Authorization: Bearer your_api_token' \
--form 'file=@example-file' \
--form 'tool_type="hand_write"' \
--form 'language_type="CHN_ENG"' \
--form 'probability="true"'