产品简介
智谱文件解析API是一款面向开发者和企业的统一文件解析解决方案,实现了多格式文件解析、智能内容抽取、灵活结果输出的一站式服务。
PDF、Word、Excel、PPT
)、结构化/非结构化数据文件(CSV、MD、TXT
)以及多种图片格式(JPG、PNG
等),能够快速提取文件中的文本、表格、图片和版面结构,生成标准化输出,便于直接接入下游业务系统或大模型处理链路。
智谱文件解析API旨在帮助企业与开发者降低接入成本、提升解析精度、优化调用体验,实现从文件上传到结果获取的全链路高效处理。
智能识别
自动识别并解析文件中的文本、表格、图片等内容。
灵活选择
按需选择不同解析服务类型,兼顾精度、速度和成本。
便捷获取
灵活获取解析结果(完整下载链接或纯文本),方便后续大模型处理或二次加工。
产品定位
在多格式文件解析与内容抽取场景中,为大模型、知识管理系统、业务应用提供高精度、高可用、低成本的底层能力支持。
- 大模型前置解析
- 知识库构建管理
- OCR识别及扫描件处理
- 行业垂直解决方案
将PDF、Word、PPT等复杂文档解析为结构化文本或Markdown,减少手工清洗,直接作为大模型输入,提升问答与推理效果。典型应用: 智能问答系统、文档对话、内容生成等。
能力支持
多样化解析能力整合
一套API选择三种解析服务
多格式文件支持
涵盖主流文档及图片格式
多输出方式
•
•
下载链接
:图片 + Markdown 文件 + 包含布局信息的json文件•
纯文本
:适配大模型输入文件大小灵活支持
不同服务最大可支持至
100M
文件下载时效
解析结果下载有效期
24
小时解析服务对比
基础信息对比
服务类型 | 支持格式 | 最大文件大小 | 解析结果 | 计费方式 |
---|---|---|---|---|
Prime | pdf,docx,doc,xls xlsx,ppt,pptx,png jpg,jpeg,csv,txt md,html,epub,bmp gif,webp,heic,eps icns,im,pcx,ppm tiff,xbm,heif,jp2 | PDF/DOC/DOCX/PPT ≤100MB XLS/XLSX/CSV ≤10MB PNG/JPG/JPEG ≤20MB | 图片 + Markdown 文件 + 包含布局信息的 json文件 | 按解析页数消耗后付费 优惠后0.12元/页 |
Expert | ≤100M | 图片 + Markdown 文件 | 按页数计费,限时 6 折优惠 优惠后0.012元/页 | |
Lite | pdf,docx,doc,xls xlsx,ppt,pptx,png jpg,jpeg,csv,txt,md | ≤50M | 纯文本(无图片) | 按调用次数计费 当前免费 2025-10-08 起 0.01 元/次 |
解析耗时
解析时长与文档结构复杂度等因素密切相关,最终耗时以实际解析结果为准。功能对比
服务类型 | 核心优势 | 推荐场景 |
---|---|---|
Prime | - 支持多种复杂版式(双栏、混排、三栏等) - 高精度解析图文、公式、段落、表格、页眉页脚等 - 多模态模型,适配复杂排版 - 精度行业领先,适合高要求场景 | - 科研出版:学术论文、技术书籍、会议资料 - 教育考试:试卷、教材、讲义 - 行业文档:合同、行业报告、白皮书 |
Expert | - PDF、图片适配能力突出 - 高精度识别 PDF 表格与公式 - 在科研、教辅、企业、财报、标准等多领域表现稳定 - 性价比高,适合大规模解析 | - 学术研究:论文、学术报告、专利 - 教育出版:教辅书籍、教育资料 - 商业金融:年报、财报、研究报告、国家标准 |
Lite | - 全格式支持,覆盖常见办公文档 - 提供基本结构化解析,速度快 - 成本低,适合对版面还原要求不高的任务 - 精度行业领先,适合高要求场景 | - 办公场景:标准合同、规章制度、公告 - 批量解析:资料归档、文本抽取、快速预处理 |
使用资源
接口文档:API调用方式 接口使用方法- 调用接口创建解析任务,获取
task_id
; - 保存并记录下
task_id
; - 使用该
task_id
轮询查询接口,获取解析结果。
字段名称 | 字段描述 |
---|---|
file | 本地待解析文件 |
tool_type | 使用的解析工具类型: lite, expert, prime |
file_type | 文件类型: PDF, DOCX, DOC, XLS, XLSX, PPT, PPTX, PNG, JPG, JPEG, CSV, TXT, MD, HTML, EPUB, BMP, GIF, WEBP, HEIC, EPS, ICNS, IM, PCX, PPM, TIFF, XBM, HEIF, JP2 |
taskId | 文件解析任务 ID |
format_type | 结果返回格式类型: text, download_link |
调用示例
调用示例里面的参数属性参考上方字段属性和对应的 API 文档。
创建文件解析任务
- cURL
- Python
- Python(旧)
- Java
- 响应示例
创建文件解析任务异步获取解析结果
注意事项
- 文件大小限制: 避免超出最大支持文件导致解析失败
- 优先选择适合场景的服务: 复杂文档选择对应服务
- 下载结果后及时保存: 下载链接24小时后失效
- 如需大模型处理: 建议直接获取纯文本输出