PDF解析工具

1- Doc2x

可以将 PDF 文件转换为 Markdown、LaTeX、DOCX 可以解析排版、数学公式、表格、图片、图表等,对包含表格和公式的文档处理效果较好,国内的不少大模型厂商在使用,中英文档处理效果比mathpix好

体验地址:https://doc2x.noedgeai.com

2- gptpdf(开源)

只用293行代码,几乎完美地解析了排版、数学公式、表格、图片、图表等,上限是gpt-4o的能力,期待后续进步一步的迭代

方法: 使用 PyMuPDF 库,对 PDF 进行解析出所有非文本区域,并做好标记 使用视觉大模型(如 GPT-4o)进行解析,得到markdown 文件

github:https://github.com/CosmosShadow/gptpdf…

3- RAGFlow(开源)

RAGFlow是基于深度文档理解的开源 RAG(检索增强生成)引擎,为了解决幻觉问题,项目方在文档解析模块做了创新,采用了自创的deep document understanding方法 支持Word、幻灯片、Excel、txt、图像、扫描件、结构化数据、网页等复杂的非结构化数据解析,包含各种不同场景模版,比如发票、简历、财报等

github:https://github.com/infiniflow/ragflow…

4- mathpix(据说claude数学能力强因为用了mathpix)

可以解析文本、数学、化学、手写识别、表格、外语和完整PDF文档,输出LaTeX 、Markdown、Word等格式。

支持类似谷歌的搜索功能

体验地址:https://mathpix.com

5- 庖丁PDFlux

提取 PDF / 图片中的表格和文字,AI 智能生成摘要/搜索/改写/翻译

体验地址:https://pdflux.com

6- pix2text(开源)

支持多语言,可以识别图片中的版面、表格、图片、文字、数学公式等,输出Markdown 格式 也可以把整个 PDF 文件(PDF 可以是扫描图片或者其他任何格式)转换为 Markdown

体验地址:https://huggingface.co/spaces/breezedeus/Pix2Text-Demo…
github:https://github.com/breezedeus/Pix2Text…

7- TextIn

可以识别文档或图片中的文字信息,按常见阅读顺序进行还原 支持标准的年报、文书、函件、合同等文档,兼容扫描文档和电子PDF文件

体验地址:https://textin.com/experience/pdf_to_markdown…

8- 腾讯云文档识别

可将图片或PDF文件转换成Markdown格式文件,包括表格、公式、图片和文本等,并转换为阅读顺序,可将文档内容转换成阅读格式

体验地址:https://ocrdemo.cloud.tencent.com

9- marker(开源)

支持多语言多文档类型,针对书籍和科学论文做了优化

github:https://github.com/VikParuchuri/marker…

10- paddle

通用表格识别是飞桨特色的端到端表格识别系统,可精准预测论文、报告等文档中的表格位置和内容

体验地址:https://aistudio.baidu.com/community/app/91661/webUI…

Image

11- MinerU

核心组件

11.1- Magic-PDF

  • 将PDF转换为Markdown格式
  • 支持多种前端模型输入
  • 将公式转换成LaTeX
  • 自动识别并转换乱码PDF
  • 保留原文档的结构和格式
  • 排版符合人类阅读顺序

11.2- Magic-Doc

  • 将网页或电子书转换为Markdown格式
  • Web网页提取可跨模态解析图文、表格、公式信息
  • 支持epub、mobi等多格式文献,文本图片均适配
  • 支持176种语言

更多信息请访问 GitHub - MinerU