项目地址:https://github.com/opendatalab/MinerU
官网地址:https:///
目前star数已经在48k+
和之前常用的pdfplumber 根据pdf数据提取具体的文本信息不同,UMiner 走的是OCR路线,即对全文进行OCR识别,在提取pdf内容,体验下来效果非常理想。
主要功能
-
· 删除页眉、页脚、脚注、页码等元素,确保语义连贯 -
· 输出符合人类阅读顺序的文本,适用于单栏、多栏及复杂排版 -
· 保留原文档的结构,包括标题、段落、列表等 -
· 提取图像、图片描述、表格、表格标题及脚注 -
· 自动识别并转换文档中的公式为LaTeX格式 -
· 自动识别并转换文档中的表格为HTML格式 -
· 自动检测扫描版PDF和乱码PDF,并启用OCR功能 -
· OCR支持109种语言的检测与识别 -
· 支持多种输出格式,如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等 -
· 支持多种可视化结果,包括layout可视化、span可视化等,便于高效确认输出效果与质检 -
· 支持纯CPU环境运行,并支持 GPU(CUDA)/NPU(CANN)/MPS 加速 -
· 兼容Windows、Linux和Mac平台
客户端
MinerU还提供官网
官网地址:https:///
官网提供了客户端,客户端支持win,macos,linux 全平台,通过客户端能直接体验MinerU
客户端采用的是云端处理的方案,每天有2000页的云端优先队列额度,由于上传到云端数据安全性需要注意
MinerU 已经被集成到了大部分RAG开源项目或者应用中
项目解析
这个项目这么牛 官方也提供了相关的技术报告并开源了源码及模型
技术报告简读
技术报告地址: https:///pdf/2509.22186
MinerU2.5 在文本识别、公式识别、表格识别和阅读顺序预测方面始终优于通用 VLM(例如,Gemini-2.5 Pro、Qwen2.5-VL-72B、GPT-4o)和特定领域模型(例如,MonkeyOCR、dots.ocr、PP-StructureV3)
MinerU2.5算法整体架构分为两个阶段。 在第一阶段,MinerU2.5 对下采样的页面进行快速的全局布局分析。在第二阶段,MinerU2.5 利用布局结果从原始高分辨率文档中裁剪关键区域,在这些原生分辨率的局部区域内执行细粒度内容识别(例如,文本、表格和公式识别)。
训练过程主要分成3步:
(1) 数据整理:我们过滤大量原始文档池,以根据布局、文档类型、元素平衡和语言构建一个多样化且平衡的数据集。(2) 预训练数据准备:我们为整理后的数据生成自动注释,然后使用专门的强大模型对文本、表格和公式进行精细化,以确保高质量。(3) 微调数据集构建:我们采用迭代挖掘通过推理一致性(IMIC)策略,自动发现难例,然后经过细致的专家整理,创建高质量的 SFT 数据集。
针对论文中的公式提出了ADR 框架。首先,通过布局分析将复合公式分解为原子行。接下来,每一行单独识别为 LaTeX。最后,将各个结果结构性地重新组合以生成完整输出。
表格识别:首先检测表格及其旋转,然后校正其几何形状。接下来,校正后的图像被识别为 OTSL 结果,最后转换为标准 HTML。
PS:整体浏览比较概述性
源码
MinerU 源码地址:https://github.com/opendatalab/MinerU
其中执行pipeline 主要在./mineru/backend/pipeline 中 整体推理的流程图

布局分析 (DocLayoutYOLOModel):识别页面中的文本、标题、图像、表格等区域
公式检测 (YOLOv8MFDModel):检测数学公式位置
公式识别 (UnimernetModel/FormulaRecognizer):将公式图像转换为LaTeX
OCR引擎 (PytorchPaddleOCR):提取文本内容
表格识别 (UnetTableModel/RapidTableModel):处理有线/无线表格
模型
MinerU2.5 是一个具有 12 亿参数的视觉-语言模型,用于文档解析,具有卓越的准确性和高计算效率。它采用两阶段解析策略:首先对下采样的图像进行高效的全局布局分析,然后对原始分辨率的裁剪图像进行细粒度内容识别,识别文本、公式和表格。得益于大规模、多样化的数据引擎进行预训练和微调,MinerU2.5 在多个基准测试中始终优于通用模型和特定领域模型,同时保持低计算开销。
模型地址:
https:///opendatalab/MinerU2.5-2509-1.2B
https:///models/opendatalab/MinerU2.5-2509-1.2B
整体模型文件大小在2.3GB 终于显卡也有一次可以跑一次全尺寸的模型了
PS:整体浏览比较概述性
简单使用
主要体验了3种方式 客户端, CPU版本及vllm-engine版本,这边拿CVPR2025的论文作为测试
客户端
客户端版本,试一下10页长度的文件 加上上传 排队及解析大概需要 1分半左右
解析文本内容基本和原文一致
mineru[core] CPU版本
mineru[core] cpu 版本安装比较简单 直接运行 就能安装成功
pip install -U 'mineru[core]' -i https://mirrors.aliyun.com/pypi/simple这边页面也支持使用Gradio 运行能在本地部署一个Gradio服务
mineru-gradio --server-name 0.0.0.0 --server-port 7860
第一次运行会从远端拉取模型需要花些实践,从日志也可以看到处理的pipeline,效果基本和云端差不多
本地处理大概也花了差不多1分30s,可能和本地CPU是16和32线程 多线程能力还行有关
vllm加速
mineru-vllm项目地址:https://github.com/opendatalab/mineru-vl-utils
这边vllm 部署在了同机的WSL上
首先要安装vllm及运行一个serve,注意WSL的localhost地址要取wsl的地址ifconfig一下
pip install vllm
vllm serve opendatalab/MinerU2.5-2509-1.2B --host 172.25.166.13 --port 8000 --gpu-memory-utilization 0.8大概30s左右 处理好相同文档,这还只是一个文档 gpu性能估计还没有完全发挥出来,实际应该可以更强
总结
MinerU 是当前面向文档理解与结构化提取领域最出色的开源项目之一。它在文本内容提取的准确性上表现卓越——不仅能精准识别并保留标题、段落、列表、表格、公式和图像等复杂版式结构,还能有效去除页眉页脚、脚注等干扰元素,输出接近人工编辑质量的 Markdown 或 JSON 格式文本。更难能可贵的是,MinerU 在部署成本上极为友好:即使在消费级显卡(如 RTX 3060 / 4060)上也能高效运行,无需昂贵的服务器或专用硬件,真正实现了“开箱即用”的轻量级智能文档处理。
作为 RAG(检索增强生成)流水线中的关键第一步——高质量文档提取的基石,MinerU 凭借其稳定、精准、低成本的特性,已成为众多主流开源 RAG 框架的首选内置引擎。RAGflow、Dify、FastGPT 等知名项目均已原生集成 MinerU,不仅提升了语料纯净度与上下文完整性,更显著增强了大模型对结构化知识的检索与理解能力。可以说,MinerU 不仅是“文档extractor”,更是RAG时代高质量知识库构建不可或缺的“数据矿工”。