开源数据提取利器MinerU:轻松转换PDF/网页/电子书内容

MinerU是一款由OpenDataLab团队开发的开源数据提取工具,支持多种格式文档的提取,包括PDF、网页和电子书。它能够高效地将多模态PDF转换为Markdown格式,并保留文档结构,适用于学术、财务、法律等多个领域。

1AI工具数据提取开源工具PDF转换多格式支持

MinerU是什么

MinerU是由上海人工智能实验室OpenDataLab团队开发的一款开源数据提取工具。它专注于从复杂的PDF文档、网页和电子书中提取内容,支持多种输入模型,能够自动识别乱码、转换公式为LaTeX,并保留文档结构。MinerU支持176种语言的准确识别,适用于学术、财务、法律等多个领域,兼容Windows/Linux/Mac平台。

查看MinerU示例图片

MinerU:开源高质量数据提取工具 支持PDF/网页/多格式电子书提取

MinerU工具截图

MinerU:开源高质量数据提取工具 支持PDF/网页/多格式电子书提取

MinerU如何使用/官网

官网:https://opendatalab.com/OpenSourceTools/Extractor/PDF

GitHub:https://github.com/opendatalab/MinerU