一款将PDF转化为机器可读格式的工具（如markdown、json），可以很方便地抽取为任意格式

源码资源网 · 发表于 2025-5-29 07:42:56

一款将PDF转化为机器可读格式的工具（如markdown、json），可以很方便地抽取为任意格式
主要功能

删除页眉、页脚、脚注、页码等元素，确保语义连贯
输出符合人类阅读顺序的文本，适用于单栏、多栏及复杂排版
保留原文档的结构，包括标题、段落、列表等
提取图像、图片描述、表格、表格标题及脚注
自动识别并转换文档中的公式为LaTeX格式
自动识别并转换文档中的表格为HTML格式
自动检测扫描版PDF和乱码PDF，并启用OCR功能
OCR支持84种语言的检测与识别
支持多种输出格式，如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等
支持多种可视化结果，包括layout可视化、span可视化等，便于高效确认输出效果与质检
支持纯CPU环境运行，并支持 GPU(CUDA)/NPU(CANN)/MPS 加速
兼容Windows、Linux和Mac平台

为了确保项目的稳定性和可靠性，我们在开发过程中仅对特定的软硬件环境进行优化和测试。这样当用户在推荐的系统配置上部署和运行项目时，能够获得最佳的性能表现和最少的兼容性问题。
通过集中资源和精力于主线环境，我们团队能够更高效地解决潜在的BUG，及时开发新功能。
在非主线环境中，由于硬件、软件配置的多样性，以及第三方依赖项的兼容性问题，我们无法100%保证项目的完全可用性。因此，对于希望在非推荐环境中使用本项目的用户，我们建议先仔细阅读文档以及FAQ，大多数问题已经在FAQ中有对应的解决方案，除此之外我们鼓励社区反馈问题，以便我们能够逐步扩大支持范围。

操作系统
		Linux after 2019	Windows 10 / 11	macOS 11+
CPU		x86_64 / arm64	x86_64(暂不支持ARM Windows)	x86_64 / arm64
内存		大于等于16GB，推荐32G以上
存储空间		大于等于20GB，推荐使用SSD以获得最佳性能
python版本		3.10~3.13
Nvidia Driver 版本		latest(专有驱动)	latest	None
CUDA环境		Refer to the PyTorch official website		None
CANN环境(NPU支持)		8.0+(Ascend 910b)	None	None
GPU/MPS 硬件支持列表	显存6G以上	Volta(2017)及之后生产的全部带Tensor Core的GPU 6G显存及以上		Apple silicon

链接: https://pan.baidu.com/s/1VZ4NJ4TvycViy-Akrgj7Kg
提取码下载：

文件名称:提取码下载.txt
下载次数:0 文件大小:16 Bytes 售价:29金钱 [记录]
下载权限: 不限 [购买VIP] [充值] [在线充值] 【VIP会员6折；永久VIP4折】

安全检测，请放心下载

		自动登录	找回密码
密码			立即注册

一款将PDF转化为机器可读格式的工具（如markdown、json），可以很方便地抽取为任意格式

相关帖子

浏览过的版块