PDF内容提取神器-MinerU 解析及使用

MinerU 是由上海人工智能实验室下属的 OpenDataLab 团队于2024年7月推出的开源文档智能提取工具，旨在高效地将复杂的多模态PDF文档（包含文本、公式、表格、图像、页眉页脚、脚注等）转换为结构清晰、机器可读的 Markdown 或 JSON 格式，从而为大模型训练和AI应用提供高质量的数据语料支持。
项目地址：https://github.com/opendatalab/MinerU
官网地址：https:///
目前star数已经在48k+

和之前常用的pdfplumber 根据pdf数据提取具体的文本信息不同，UMiner 走的是OCR路线，即对全文进行OCR识别，在提取pdf内容，体验下来效果非常理想。

主要功能

· 删除页眉、页脚、脚注、页码等元素，确保语义连贯
· 输出符合人类阅读顺序的文本，适用于单栏、多栏及复杂排版
· 保留原文档的结构，包括标题、段落、列表等
· 提取图像、图片描述、表格、表格标题及脚注
· 自动识别并转换文档中的公式为LaTeX格式
· 自动识别并转换文档中的表格为HTML格式
· 自动检测扫描版PDF和乱码PDF，并启用OCR功能
· OCR支持109种语言的检测与识别
· 支持多种输出格式，如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等
· 支持多种可视化结果，包括layout可视化、span可视化等，便于高效确认输出效果与质检
· 支持纯CPU环境运行，并支持 GPU(CUDA)/NPU(CANN)/MPS 加速
· 兼容Windows、Linux和Mac平台

客户端

MinerU还提供官网
官网地址：https:///
官网提供了客户端，客户端支持win，macos，linux 全平台，通过客户端能直接体验MinerU

客户端采用的是云端处理的方案，每天有2000页的云端优先队列额度，由于上传到云端数据安全性需要注意

MinerU 已经被集成到了大部分RAG开源项目或者应用中

项目解析

这个项目这么牛官方也提供了相关的技术报告并开源了源码及模型

技术报告简读

技术报告地址: https:///pdf/2509.22186

MinerU2.5 在文本识别、公式识别、表格识别和阅读顺序预测方面始终优于通用 VLM（例如，Gemini-2.5 Pro、Qwen2.5-VL-72B、GPT-4o）和特定领域模型（例如，MonkeyOCR、dots.ocr、PP-StructureV3）

MinerU2.5算法整体架构分为两个阶段。在第一阶段，MinerU2.5 对下采样的页面进行快速的全局布局分析。在第二阶段，MinerU2.5 利用布局结果从原始高分辨率文档中裁剪关键区域，在这些原生分辨率的局部区域内执行细粒度内容识别（例如，文本、表格和公式识别）。

训练过程主要分成3步:
(1) 数据整理：我们过滤大量原始文档池，以根据布局、文档类型、元素平衡和语言构建一个多样化且平衡的数据集。(2) 预训练数据准备：我们为整理后的数据生成自动注释，然后使用专门的强大模型对文本、表格和公式进行精细化，以确保高质量。(3) 微调数据集构建：我们采用迭代挖掘通过推理一致性（IMIC）策略，自动发现难例，然后经过细致的专家整理，创建高质量的 SFT 数据集。

针对论文中的公式提出了ADR 框架。首先，通过布局分析将复合公式分解为原子行。接下来，每一行单独识别为 LaTeX。最后，将各个结果结构性地重新组合以生成完整输出。

表格识别:首先检测表格及其旋转，然后校正其几何形状。接下来，校正后的图像被识别为 OTSL 结果，最后转换为标准 HTML。

PS：整体浏览比较概述性

源码

MinerU 源码地址：https://github.com/opendatalab/MinerU
其中执行pipeline 主要在./mineru/backend/pipeline 中整体推理的流程图

整个流程中不同阶段也使用了不同的模型俩处理，整体有：
布局分析 (DocLayoutYOLOModel)：识别页面中的文本、标题、图像、表格等区域
公式检测 (YOLOv8MFDModel)：检测数学公式位置
公式识别 (UnimernetModel/FormulaRecognizer)：将公式图像转换为LaTeX
OCR引擎 (PytorchPaddleOCR)：提取文本内容
表格识别 (UnetTableModel/RapidTableModel)：处理有线/无线表格

模型

MinerU2.5 是一个具有 12 亿参数的视觉-语言模型，用于文档解析，具有卓越的准确性和高计算效率。它采用两阶段解析策略：首先对下采样的图像进行高效的全局布局分析，然后对原始分辨率的裁剪图像进行细粒度内容识别，识别文本、公式和表格。得益于大规模、多样化的数据引擎进行预训练和微调，MinerU2.5 在多个基准测试中始终优于通用模型和特定领域模型，同时保持低计算开销。
模型地址：
https:///opendatalab/MinerU2.5-2509-1.2B
https:///models/opendatalab/MinerU2.5-2509-1.2B
整体模型文件大小在2.3GB 终于显卡也有一次可以跑一次全尺寸的模型了

PS：整体浏览比较概述性

简单使用

主要体验了3种方式客户端， CPU版本及vllm-engine版本，这边拿CVPR2025的论文作为测试

客户端

客户端版本，试一下10页长度的文件加上上传排队及解析大概需要 1分半左右

解析文本内容基本和原文一致

mineru[core] CPU版本

mineru[core] cpu 版本安装比较简单直接运行就能安装成功

pip install -U 'mineru[core]' -i https://mirrors.aliyun.com/pypi/simple

这边页面也支持使用Gradio 运行能在本地部署一个Gradio服务

mineru-gradio --server-name 0.0.0.0 --server-port 7860

第一次运行会从远端拉取模型需要花些实践，从日志也可以看到处理的pipeline，效果基本和云端差不多

本地处理大概也花了差不多1分30s，可能和本地CPU是16和32线程多线程能力还行有关

vllm加速

mineru-vllm项目地址：https://github.com/opendatalab/mineru-vl-utils
这边vllm 部署在了同机的WSL上
首先要安装vllm及运行一个serve，注意WSL的localhost地址要取wsl的地址ifconfig一下

pip install vllm
vllm serve opendatalab/MinerU2.5-2509-1.2B --host 172.25.166.13 --port 8000  --gpu-memory-utilization 0.8

大概30s左右处理好相同文档，这还只是一个文档 gpu性能估计还没有完全发挥出来，实际应该可以更强

总结

MinerU 是当前面向文档理解与结构化提取领域最出色的开源项目之一。它在文本内容提取的准确性上表现卓越——不仅能精准识别并保留标题、段落、列表、表格、公式和图像等复杂版式结构，还能有效去除页眉页脚、脚注等干扰元素，输出接近人工编辑质量的 Markdown 或 JSON 格式文本。更难能可贵的是，MinerU 在部署成本上极为友好：即使在消费级显卡（如 RTX 3060 / 4060）上也能高效运行，无需昂贵的服务器或专用硬件，真正实现了“开箱即用”的轻量级智能文档处理。

作为 RAG（检索增强生成）流水线中的关键第一步——高质量文档提取的基石，MinerU 凭借其稳定、精准、低成本的特性，已成为众多主流开源 RAG 框架的首选内置引擎。RAGflow、Dify、FastGPT 等知名项目均已原生集成 MinerU，不仅提升了语料纯净度与上下文完整性，更显著增强了大模型对结构化知识的检索与理解能力。可以说，MinerU 不仅是“文档extractor”，更是RAG时代高质量知识库构建不可或缺的“数据矿工”。

微精选