大模型 OCR 的黄金时代,腾讯开源混元OCR,文档解析、视觉问答和翻译方面达到 SOTA
8天前DeepSeek-OCR 本地部署(上):CUDA 升级 12.9,vLLM 升级至最新稳定版 大家好,我是 Ai 学习的老章 大模型 OCR 的黄金时代来了,小红书 dots.ocr-3b、deep …
Umi
21天前把一张纸质表格塞进扫描仪,30秒后,Excel里已经跳出可编辑的单元格,连合并单元格都原样保留——这不是Adobe,也不是ABBYY,而是一款完全免费、断网也能跑的开源小钢炮:Umi-OCR。 它最新 …
深度|DeepSeek-OCR引爆“语言vs像素”之争,Karpathy、马斯克站台“一切终归像素”,视觉派迎来爆发前夜
1个月前打开今日头条查看图片详情 过去一年,大模型世界像一场“算力奥运会”:谁的参数更大、Bench 更高、吞吐更快,就能赢得下一轮融资与流量。 但 DeepSeek-OCR 的出现,像是在赛道中间立了一块新 …
再一次震动世界,DeepSeek展示终极野心要为大模型开辟新突破路径
1个月前打开今日头条查看图片详情 大型语言模型(LLM)的“上下文窗口”军备竞赛正将其推向一个根本性的计算悬崖。从几千个token到百万,乃至千万token,这场竞赛的背后是Transformer架构的核心瓶 …
每天节省2小时!打工人都在用的开源OCR工具OCRFlux。
5个月前「OCRFlux」是什么? 它是一款轻量级多模态大语言模型的工具包,主要功能是把PDF转换为Markdown文件,它的优势是可以解决复杂的排版解析、复杂的表格解析和跨页内容合并这些难点问题 …
PaddleOCR 2.9 发布, 正式开源文本图像智能分析利器
1年前视觉/图像重磅干货,第一时间送达! OCR 方向的工程师,之前一定听说过 PaddleOCR 这个项目。目前项目累计 Star数量已超过 43k+ ,安装包月下载量超过 40w+ 。 滑动查看更多图片 …