Lumina AI的Chunkr:一款开源的PDF数据解析利器

Chunkr是一款由Lumina AI Inc.维护的开源PDF数据提取工具,专注于文档布局分析、OCR和分块处理。它支持多种文件格式转换,并利用先进的视觉模型和OCR技术提取文档中的文本、表格、图像和手写内容,适用于RAG和LLM。

1AI工具PDF解析开源工具数据提取AI技术

Chunkr是什么

Chunkr是一款开源的PDF数据提取工具,它基于视觉模型,旨在对文档布局进行分析、执行OCR(光学字符识别)以及进行分块处理。该工具可以将PDF、DOC、PPT和XLS文件转换成适合RAG(检索增强生成)和LLM(大型语言模型)使用的结构化数据。Chunkr运用了先进的视觉模型和OCR技术,能够提取文档中的边界框和结构化文本,并支持处理文本、表格、图像和手写内容。由Lumina AI Inc.负责维护,兼容GPU和CPU环境,并提供免费试用和定价方案。

Chunkr-开源基于视觉模型的 PDF数据提取工具

Chunkr如何使用

官网:https://chunkr.ai/

Chunkr-开源基于视觉模型的 PDF数据提取工具

GitHub:https://github.com/lumina-ai-inc/chunkr