MinerU是什么

MinerU是一款将PDF转换为机器可读格式(例如Markdown、JSON)的工具,可轻松提取为任何格式。MinerU诞生于InternLM的预训练过程中,专注于解决科学文献中的符号转换问题,希望为大模型时代的技术发展做出贡献。与知名商业产品相比,MinerU还很年轻。如果您遇到任何问题或结果不如预期,请在issue上提交问题并附上相关PDF。

MinerU截图展示

MinerU主要功能

  • 删除页眉、页脚、脚注、页码等,以确保语义一致性。
  • 以人类可读的顺序输出文本,适用于单列、多列和复杂布局。
  • 保留原始文档的结构,包括标题、段落、列表等。
  • 提取图像、图像描述、表格、表格标题和脚注。
  • 自动识别文档中的公式并转换为LaTeX格式。
  • 自动识别文档中的表格并转换为HTML格式。
  • 自动检测扫描的PDF和乱码PDF并启用OCR功能。
  • OCR支持84种语言的检测和识别。
  • 支持多种输出格式,如多模式和NLP Markdown、按阅读顺序排序的JSON以及丰富的中间格式。
  • 支持多种可视化结果,包括布局可视化、跨度可视化,可有效确认输出质量。
  • 支持CPU和GPU环境。
  • 兼容Windows、Linux和Mac平台。

MinerU官网

https://github.com/opendatalab/MinerU

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。