MinerU是什么
MinerU是一款将PDF转换为机器可读格式(例如Markdown、JSON)的工具,可轻松提取为任何格式。MinerU诞生于InternLM的预训练过程中,专注于解决科学文献中的符号转换问题,希望为大模型时代的技术发展做出贡献。与知名商业产品相比,MinerU还很年轻。如果您遇到任何问题或结果不如预期,请在issue上提交问题并附上相关PDF。
MinerU截图展示
MinerU主要功能
- 删除页眉、页脚、脚注、页码等,以确保语义一致性。
- 以人类可读的顺序输出文本,适用于单列、多列和复杂布局。
- 保留原始文档的结构,包括标题、段落、列表等。
- 提取图像、图像描述、表格、表格标题和脚注。
- 自动识别文档中的公式并转换为LaTeX格式。
- 自动识别文档中的表格并转换为HTML格式。
- 自动检测扫描的PDF和乱码PDF并启用OCR功能。
- OCR支持84种语言的检测和识别。
- 支持多种输出格式,如多模式和NLP Markdown、按阅读顺序排序的JSON以及丰富的中间格式。
- 支持多种可视化结果,包括布局可视化、跨度可视化,可有效确认输出质量。
- 支持CPU和GPU环境。
- 兼容Windows、Linux和Mac平台。
MinerU官网
https://github.com/opendatalab/MinerU
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。