项目简介:由 IBM 研发团队开源的企业级文档智能解析引擎,能够将 PDF、Word、PPT、HTML、图片等各类非结构化文档自动转换为结构化的 Markdown 或 JSON 格式,专为 AI 应用和知识库场景设计。
核心功能:
- 支持 PDF(含扫描件)、Word、Excel、PPT、HTML、图片等十余种格式的一键解析
- 内置 OCR 引擎,可识别扫描件和图片中的文字内容
- 智能版面分析,自动识别标题、段落、表格、列表、页眉页脚等文档结构
- 表格精准提取,保留行列关系并输出 Markdown 表格或 JSON
- 支持多页文档批量处理,输出带页码锚点的完整文档
- 提供命令行工具和 Python SDK,可轻松集成到数据处理流水线
- 内置深度学习模型,对复杂排版(多栏、跨页表格)有很好的处理能力
- 支持 Docker 一键部署,也可本地运行无需联网
技术栈:Python / PyTorch / OCR / 深度学习 / Docker
详细描述:该工具解决了传统文档解析库对复杂排版支持不足的问题,其核心亮点在于基于深度学习的版面分析模块,能够准确识别文档中各类元素的边界和层级关系。对于扫描件,集成了工业级 OCR 引擎实现高精度文字识别。表格提取功能尤其强大,即使面对合并单元格、跨页表格等复杂情况也能保持结构完整。输出格式兼容主流 Markdown 方言,可直接供大语言模型消费。非常适合构建企业知识库、智能客服 FAQ 系统、合同比对工具或 RAG 检索增强生成流水线。工具提供丰富的配置选项,用户可根据文档类型选择最优解析策略,在精度和速度之间灵活权衡。
游客,本帖隐藏的内容需要积分高于 20 才可浏览,您当前积分为 0 |