打开今日头条查看图片详情
过去一年,大模型世界像一场“算力奥运会”:谁的参数更大、Bench 更高、吞吐更快,就能赢得下一轮融资与流量。
但 DeepSeek-OCR 的出现,像是在赛道中间立了一块新的路标——别再往 LLM 嘴里塞更多 token 了,先想想有没有更聪明的喂法。
这一次,它不是在卷识别精度,而是在重新定义“输入”本身。一个名叫 OCR 的模型,却把问题指向了长上下文与信息压缩的根本:当文字被渲染成图像,当模型开始“看”而不是“读”,AI 的记忆方式也在被重写。
打开今日头条查看图片详情
技术内核:十倍压缩 + 多分辨率,“读”变“看”的工程路径
DeepSeek-OCR 的设计思路非常鲜明:通过多分辨率的视觉编码机制,实现极高的信息压缩效率。
模型提供了多个分辨率选项:最低的 512×512 图像仅需 64 个 token,而 1024×1024 则对应 256 个 token。对于复杂版面,它会组合多种分辨率——整页用多个 1024×1024 的块进行全局编码,重点区域再以 640×640 的高分辨率单独处理。
这套路线的底层逻辑是:把文本先渲染成图片,再用视觉编码器把它压成更少的视觉 token。传统做法是“按字/词切片—> 变成一长串文本 token—> 塞给 LLM”,而 DeepSeek 的思路是“把一页文字变成若干张多尺度图块—> 视觉编码—> 少量视觉 token”。从工程权衡的角度看,这有三层直接收益:
-
信息密度:排版、层级结构、表格网格、图文对齐,这些在“文本化”过程中会损失,而在“视觉化”里天然携带。
-
计算复杂度:Transformer 注意力是 N2N^2N2——token 越多越爆炸。视觉压缩若能把 10 万 token 的文档“折叠”到几百个视觉 token,延迟、显存、花费都会是数量级改善。
-
输入一致性:现实世界里大量输入本就是截图、PDF、PPT、仪表盘、网页混排。以视觉为统一“底层表示”,有利于做一体化的上下文管理。
DeepSeek 在工程上还给了多分辨率的“粗到细”路径:整页用较粗分辨率覆盖,重点区域再用更高分辨率补洞,既保全结构又兼顾要点密度。
这听上去眼熟?没错,与多尺度生成/理解中的“金字塔”范式一脉相承。
项目主页直白写着“探索视觉-文本压缩的边界:10× 近无损、20× 仍有约 60% 准确度”,这与开源社区的二手验证口径相互印证。
更有意思的是,DeepSeek 团队并未止步于识别性能。
他们提出了一个极具想象力的假设:“人脑之所以能记忆长久,是因为它会忘记;那模型也可以通过分辨率的降低来实现遗忘。”
打开今日头条查看图片详情
这意味着,“遗忘”第一次被引入模型的设计逻辑中。 在这套机制下,最近的信息以高分辨率保存,细节完整;时间越久远,分辨率越低,只保留核心语义;最终,最早的记忆被压缩成模糊的背景层。
这是一种从清晰到模糊的光学记忆曲线,对应人类的记忆衰减机制。
这样的机制让上下文不再是“平铺的一串 token”,而是一个立体的时间空间结构:模型不再一次性背下所有内容,而是像人一样分层保留。在信息洪流的时代,这样的“视觉遗忘”或许才是最合理的记忆方式。
“视觉 > 文本”的争论:DeepSeek接过“视觉语言”的火炬
在 DeepSeek-OCR 发布后,最引发热议的不是模型的识别精度,而是 Andrej Karpathy的那条长推。
这位前 OpenAI 创始成员、特斯拉自动驾驶 AI 负责人,在 X 上直言:“也许 LLM 的所有输入都应该是图像;我讨厌分词器(tokenizer),它丑陋、割裂、不是端到端。”
他的出发点并不神秘——视觉派的直觉与一线工程经验:文本分词继承了 Unicode/字节编码的历史包袱,也引入了越狱/安全边界等现实风险;而用像素端到端,可以名正言顺地把排版、样式、符号变体一并学进表示空间。从“把文本当图像”到“输入侧双向注意力更自然”“统一模态流”,AK 给了一套颇具煽动力的论据。
打开今日头条查看图片详情
而马斯克进一步把这个逻辑推到了物理层的极限:“最终一切输入输出都是光子。”两人的思路实质上是一致的——语言是人类造的接口,而光是宇宙本身的接口。
他所说的“Nothing else scales”,并不仅仅指算力的瓶颈,而是信息传输与感知的物理极限。无论是图像、视频、传感器还是显示屏,所有的信息流本质上都是光子流。换句话说,语言、文字、符号这些“输入方式”,只是光的低维投影。当模型足够强大时,它们都将被还原为光的形式——即以视觉为基础的直接感知与生成。
打开今日头条查看图片详情
“让语言回归像素”并不是凭空诞生的想法。
早在 2022 年,哥本哈根大学团队就在论文《Language Modelling with Pixels》中提出了 PIXEL 模型:它通过把文本渲染成图像,并以像素重建代替分词预测,从而绕过传统分词器带来的语言隔阂。PIXEL 实验显示,这种方式在跨语言、异体字、以及正字法攻击(如字符扰动)场景下表现更稳健。
此后,学界陆续出现了多篇沿着这一思路发展的论文:
-
2023 年 CVPR 论文 CLIPPO提出 “Pixels Only” 框架,将图像与语言的对齐完全基于视觉 token;
-
2024 年多篇论文探索如何利用视觉 token 处理长文本上下文;
-
2025 年的 NeurIPS 再度出现类似方向的研究,强化了“视觉编码是长上下文问题解法”的共识。

DeepSeek-OCR 正是在这一脉络下登场的。它将多篇分散的研究成果整合成一条完整的工程链路:把视觉编码、上下文压缩、多分辨率建模融合为统一框架。
值得一提的是,DeepSeek 的多分辨率机制与去年的 NeurIPS Best Paper《Visual Autoregressive Modeling》高度相似。那篇由字节跳动实习生Tian Keyu领衔的工作,采用了“由粗到细”的多尺度预测方式——先低分辨率生成,再逐步提升清晰度。 同时,豆包团队也在论文中展示了相同的数据压缩路径:512×512 图像可编码为 64 个 token,256×256 甚至能压到 32 个 token。
正如久痕科技创始人汪源所评价的那样:DeepSeek OCR的性能和思路不算很大的突破,但产品化的贡献值得肯定。
把概念落回现实账本,会更清楚地看到它的价值。
Transformer 的注意力机制是 N^2 复杂度,输入 token 数量从 1 万增加到 10 万,计算量就会暴涨 100 倍。
哪怕你用稀疏注意力、滑动窗口、外部记忆等技巧,成本下降仍然有限,且往往伴随对齐/召回的不确定性。现实业务里,最扯后腿的恰恰是“混排文档”:合规 PDF、法务合同、工艺/维保手册、SaaS 仪表盘、研发规范、PPT……今天的常态是“先 OCR+结构化→再喂 LLM”,这一步步的串接又贵又脆。
如果输入侧直接统一成视觉,省掉一层中间件与信息损耗;若再叠加“渐进式分辨率衰减”,老上下文以更低成本“影子驻留”,新上下文以高分辨率强化——这对RAG/会话长期记忆/代码库理解都是实打实的系统性优化。社区口径里甚至出现了诸如“A100 单卡日处理 ~20 万页”的粗算(显然依赖具体分辨率/排版/批量参数),虽然属于工程经验值,但方向大体明确:视觉压缩在吞吐/延迟/成本的三角里打开了新空间。
需要补一句冷水:删分词器并非免费午餐。视觉管线的鲁棒性(渲染差异、截图工况、抗压缩噪声)、读写闭环(输入像素→输出像素?还是回到文本?)、训练数据构建与标注成本,都是要在产品化上“真金白银”攻克的硬骨头。
DeepSeek-OCR 当前把“输入统一为视觉”这半程跑通,是对生态非常重要的刺激,但“输出也视觉化”的终局何时可用,还要看后续的工具链与评测体系。
范式分流:视觉Token的进击、硬坎与未来
DeepSeek 这次的思路,也不是要和“文本 token 路线”你死我活。更现实的判断是:视觉化输入将成为与文本并行的“第二轨”。
它在一些特定场景下具备天然优势:
-
复杂混排 / 版面语义:合同条款、财报、图表、批注脚注……过去要多轮 OCR + 结构化,现在视觉输入一步搞定。
-
跨语言 / 字符体系:像素化输入绕过分词器词表瓶颈,对多语料任务天然更鲁棒(PIXEL 模型的结果已证实)。
-
安全与越狱防护:字符级绕行在像素域难度更高,虽然不是绝对安全,但确实更稳。
-
跨模态迁移:从图到文的对齐路径更短,UI 理解、自动化操作、Agent 工具调用更顺滑。
当然,文本 token 依然不可替代。它的可编辑性、符号逻辑的稀疏性、产业评测生态的成熟度,仍是视觉模型难以比肩的优势。真正的产品最佳实践,很可能不是“视觉替代文本”,而是“文-视双通道融合 + 任务自适应路由”:让模型在需要逻辑推理时用文本,在需要结构感知时切换视觉。
任何新范式都不是免费的午餐。DeepSeek-OCR 的视觉路径,同样有三道“硬坎”:
-
边界效应:有损压缩的极限在哪?压错一个字,可能就错一个法条。必须配合“任务自适应压缩率”和“局部校对回读(spot-check)”机制。
-
可测性 / 可解释性:评测体系要从 CER/WER(逐字错误率)升级到“版面-语义-逻辑一致性”指标,还得能量化“视觉遗忘”的副作用。
-
数据与治理:渲染风格、截图工况、扫描噪声的 domain gap 不小;版权和隐私问题也更棘手——像素里常常藏着水印、红章、元信息。
学术研究表明:像素语言模型在跨文字体系的鲁棒性上表现优异,但在拉丁语系的语义任务上仍略弱于同规模文本模型——这提醒产业界要任务分层、术业分工,别一刀切地推崇视觉输入。
DeepSeek 把“分辨率递减”与“人类遗忘曲线”做类比:近事清晰、旧事模糊。在人脑里,遗忘不仅是分辨率降低,更是语义抽象与概念重组——很多细节被抛弃,是因为更高层表示成型。下一步如果能把“分辨率衰减”与“语义摘要/结构抽象”联动,那这套“光学遗忘”才会更像“机器的长期记忆”。
不要只把它当 OCR,它更像一次输入层的重构实验
DeepSeek-OCR 的真正价值,是把“视觉化输入”拉回了一线主航道:
-
它把长上下文的算力-成本矛盾,转化为输入压缩 + 多分辨率调度的工程问题;
-
它把“文本是唯一输入”的传统,撬成“视觉 / 文本双轨”的现实;
接下来最有看点的,不是单一 Bench 的分数,而是谁先把视觉化输入与语义化记忆真正打通:让旧上下文既便宜地“模糊”存在,又能在“需要较真时”快速局部放大 + 精准回读。
当这条链路成熟,“以视觉方式压缩一切”也许真会成为主流。
来源:
[1]
[2] https://github.com/deepseek-ai/
[3] https://news./item?id=45640594&utm_source=chatgpt.com
[4] https:///karpathy/status/1980397031542989305?utm_source=chatgpt.com
[5] https:///abs/2207.06991?utm_source=chatgpt.com
https:///abs/2212.08045?utm_source=chatgpt.com
[6] https://proceedings./paper_files/paper/2024/file/9a24e284b187f662681440ba15c416fb-Paper-Conference.pdf?utm_source=chatgpt.com
欢迎扫码加群参与讨论