一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式
主要功能- 删除页眉、页脚、脚注、页码等元素,确保语义连贯
- 输出符合人类阅读顺序的文本,适用于单栏、多栏及复杂排版
- 保留原文档的结构,包括标题、段落、列表等
- 提取图像、图片描述、表格、表格标题及脚注
- 自动识别并转换文档中的公式为LaTeX格式
- 自动识别并转换文档中的表格为HTML格式
- 自动检测扫描版PDF和乱码PDF,并启用OCR功能
- OCR支持84种语言的检测与识别
- 支持多种输出格式,如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等
- 支持多种可视化结果,包括layout可视化、span可视化等,便于高效确认输出效果与质检
- 支持纯CPU环境运行,并支持 GPU(CUDA)/NPU(CANN)/MPS 加速
- 兼容Windows、Linux和Mac平台
为了确保项目的稳定性和可靠性,我们在开发过程中仅对特定的软硬件环境进行优化和测试。这样当用户在推荐的系统配置上部署和运行项目时,能够获得最佳的性能表现和最少的兼容性问题。 通过集中资源和精力于主线环境,我们团队能够更高效地解决潜在的BUG,及时开发新功能。 在非主线环境中,由于硬件、软件配置的多样性,以及第三方依赖项的兼容性问题,我们无法100%保证项目的完全可用性。因此,对于希望在非推荐环境中使用本项目的用户,我们建议先仔细阅读文档以及FAQ,大多数问题已经在FAQ中有对应的解决方案,除此之外我们鼓励社区反馈问题,以便我们能够逐步扩大支持范围。
操作系统 | Linux after 2019 | Windows 10 / 11 | macOS 11+ | CPU | x86_64 / arm64 | x86_64(暂不支持ARM Windows) | x86_64 / arm64 | 内存 | 大于等于16GB,推荐32G以上 | 存储空间 | 大于等于20GB,推荐使用SSD以获得最佳性能 | python版本 | 3.10~3.13 | Nvidia Driver 版本 | latest(专有驱动) | latest | None | CUDA环境 | Refer to the PyTorch official website | None | CANN环境(NPU支持) | 8.0+(Ascend 910b) | None | None | GPU/MPS 硬件支持列表 | 显存6G以上 | Volta(2017)及之后生产的全部带Tensor Core的GPU
6G显存及以上 | Apple silicon |

链接: https://pan.baidu.com/s/1VZ4NJ4TvycViy-Akrgj7Kg
提取码下载:
|