「OCRFlux」是什么?
它是一款轻量级多模态大语言模型的工具包,主要功能是把PDF转换为Markdown文件,它的优势是可以解决复杂的排版解析、复杂的表格解析和跨页内容合并这些难点问题,同时它的识别准确率也尤为突出。受到广大用户的喜爱。
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
| OCRFlux-3B |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| OCRFlux-3B |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| OCRFlux-3B |
|
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
| OCRFlux-3B |
|
|
|
|
|
|
|
|
|
|
| MonkeyOCR |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| OCRFlux-3B |
|
|
|
|
|
|
|
|---|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
三、核心功能包括哪些?
1、单页面识别场景:
1.1 跨列表格,当PDF中存在跨多列时,就难以准确判定单元格边界,容易导致识别不准确。可以直观地看出,OCRFlux识别的效果是比较准确的。
1.2合并单元格
当PDF中存在合并单元格的时候,特别容易识别出歧义,OCRFlux支持复杂表格结构的还原,因此可以准确识别其中的内容。
1.3多列
当PDF中存在多列的时候,经常会打乱常规的从左至右的阅读顺序,因此容易识别有误差,可以看下OCRFlux可以识别的结果,给出了正确的阅读顺序。
1.4多表格
单页pdf中的多表格,也会增加识别解析的复杂度,必须做出正确的切割,才能保证展示的正确,OCRFlux的识别也是没有问题的。
1.5多语言
一个PDF中混合多种语言,同样会增加识别难度,OCRFlux具备强大的语言识别和处理能力,可以精准识别这种混合语言的文档。
2、跨页段落/表格合并场景:
2.1跨页表格

PDF中经常遇到表格跨页分离,增加了OCR的识别难度,OCRFlux可以自动检测合并表格元素,无缝对接上下页的内容,输出正确的结果。
2.2表格垂直拆分
多列表格的PDF中,经常出现纵向分离,导致理解数据和重组数据存在困难,OCRFlux可以精确的识别出这种场景,可以看下效果。
2.3表头重复
在跨页表格的PDF中,表格的页眉重复也会导致OCR识别错误,OCRFlux可以智能合并跨页内容,自动删除多余的页眉。
2.4单元格多行拆分
内容跨页超长单元格特别容易导致识别错误,OCRFlux也可以智能合并保留完整的数据内容。
学术研究:对于学术文档、复杂的文献都可以使用OCRFlux转换为Markdown进行修改。
技术文档:对于PDF格式技术文档,特别是英文的文档,可以可以使用OCRFlux转换为Markdown文件。
单据的识别:比如财务单据、票据等PDF格式,都可以转换为Markdown格式进行修改存储。
conda create -n ocrflux python=3.11conda activate ocrflux
git clone https://github.com/chatdoc-com/OCRFlux.gitcd ocrflux
pip install -e . --find-links https:///whl/cu124/torch2.5/flashinfer/python -m ocrflux.pipeline ./localworkspace --data test.pdf --model /model_dir/OCRFlux-3B
python -m ocrflux.pipeline ./localworkspace --data test_page.png --model /model_dir/OCRFlux-3Bpython -m ocrflux.pipeline ./localworkspace --data test_pdf_dir/* --model /model_dir/OCRFlux-3B
docker run -it --gpus all -v /path/to/localworkspace:/localworkspace -v /path/to/test_pdf_dir:/test_pdf_dir/ -v /path/to/OCRFlux-3B:/OCRFlux-3B chatdoc/ocrflux:latest /localworkspace --data /test_pdf_dir/* --model /OCRFlux-3B/./localworkspace/markdowns/DOCUMENT_NAME目录里。python -m ocrflux.jsonl_to_markdown ./localworkspace
https://github.com/chatdoc-com/OCRFlux
https://ocrflux./
今天的分享就到这里,感谢大家的阅读。如果你最近也要使用PDF转换为Markdown格式,可以试试这个工具。