打开今日头条查看图片详情

大型语言模型(LLM)的“上下文窗口”军备竞赛正将其推向一个根本性的计算悬崖。从几千个token到百万,乃至千万token,这场竞赛的背后是Transformer架构的核心瓶颈:注意力机制的二次方复杂度。这意味着上下文长度每增加一倍,计算和内存成本就会增加四倍。尽管业界已开发出分组查询注意力等诸多优化手段,但这些都只是“战术性”缓解,而非“战略性”解决方案。它们仍在优化 n个文本token的计算,却没有改变n 本身。

2025年10月20日,DeepSeek-AI 团队开源的一项名为 DeepSeek-OCR 的研究,为这场已陷入内卷的竞赛提供了全新的破局思路。这份表面上是关于光学字符识别(OCR)的论文,其真正的野心远超于此。它提出了一个激进的设想:彻底抛弃文本token作为LLM的基本输入语言,转而使用“像素”——将所有文本信息渲染为图像,再让视觉语言模型(VLM)去“阅读”这些图像。这不仅是一次媒介的转换,更可能是一场重写LLM底层输入范式的革命。

打开今日头条查看图片详情

以OCR为名的系统革命:DeepEncoder的压缩艺术

DeepSeek-OCR 的核心论点是“上下文光学压缩”(Contexts Optical Compression)。其逻辑极其简洁:人类的文本信息本质上是2D视觉符号,而图像是一种天然的高密度信息压缩媒介。例如,一篇包含1万个文本token的文档,如果被渲染成一张高分辨率图像,再通过高效的视觉编码器进行处理,可能最终只需要几百个“视觉token”来表示。这将使 $O(n^2)$ 困境中的n值缩小数十倍,从根本上绕开了文本token带来的尺度灾难。

然而,这一设想面临一个直接的技术障碍:视觉模型本身也有尺度问题。高分辨率图像(如1024×1024)本身就会被标准VLM切割成数千个图像块(patches),产生海量的视觉token,这同样会导致计算成本爆炸。

为此,DeepSeek-AI 团队设计了该论文的真正核心创新:DeepEncoder。这是一个约3.8亿参数的串联架构,其设计哲学是“先局部感知,再压缩提炼,后全局理解”。

  1. 第一级(局部感知): 一个基于SAM-base的感知器处理高分辨率输入的局部细节。它将图像分解为4096个图像块,但通过窗口注意力(Windowed Attention)将计算严格限制在局部,以极低的激活内存处理海量细节。
  2. 第二级(压缩提炼): 这是一个关键的16倍卷积压缩器。它像一个信息汇总员,接收来自第一阶段的4096个局部token,并通过可学习的下采样将其“蒸馏”为一份仅有256个视觉token的“摘要简报”。
  3. 第三级(全局理解): 一个基于CLIP-large的知识层。由于只处理压缩后的256个token,它可以“奢侈地”使用昂贵的全局注意力(Global Attention),对这份高度浓缩的摘要进行全面的交叉对比和精细观察,理解全局语义结构。

这个三级串联设计,完美地解决了高分辨率输入与低计算成本之间的矛盾。它不同于其他VLM架构:它不是让LLM自己去猜测海量碎片化信息(如InternVL2),也不是试图对海量token直接使用全局注意力(如Qwen2-VL),而是在VLM内部就完成了一次高效的信息压缩和提炼。

打开今日头条查看图片详情

实验结果验证了这一架构的惊人效率。DeepSeek-OCR 能够以近乎无损的精度(96.5%)实现10倍的压缩率(例如,用64个视觉token解码近700个文本token),即使在20倍的压缩率下,模型精度依然保持在可用水平。在OmniDocBench等权威OCR基准上,它仅用不到800个视觉token,其性能就全面超越了需要近7000个token的传统SOTA模型。这有力地证明了“光学压缩-解压”系统的可行性:VLM完全有能力从极少数的视觉token中,高保真地重建海量的原始文本信息。

再一次震动世界,DeepSeek展示终极野心要为大模型开辟新突破路径

打开今日头条查看图片详情

通向无限上下文:“光学遗忘”的记忆机制

DeepSeek-OCR 所展示的10倍压缩率仅仅是第一步。该论文在结论中展露的真正愿景,是构建一种模拟人类记忆的“光学遗忘”(Optical Forgetting)机制,这被视为一条通往“理论上无限上下文”的可能路径。

人类的记忆系统天然具有分层和衰减特性。我们对刚刚发生的对话细节分毫毕现,对几周前的经历只记得模糊的要点,对几年前的记忆则可能只剩下核心结论。这种“遗忘”并非缺陷,而是一种高效的信息管理策略,确保大脑将有限的认知资源分配给最重要的信息。

DeepSeek-OCR 的多分辨率设计恰好为模拟这种机制提供了技术基础。团队设想,AI系统可以根据上下文的“时间距离”或“重要性”来动态管理其“记忆分辨率”:

  • 近期上下文(如当前对话): 可以保留为高精度的文本token,或渲染成高分辨率图像,并使用DeepEncoder的“Gundam模式”(高token数,如800个)进行处理,确保信息的绝对保真。
  • 中期上下文(如一天前的对话): 可以渲染成中分辨率图像,并用“Base模式”(256个token)处理。信息开始变得模糊,但关键结构和要点仍然清晰。
  • 远期上下文(如一个月前的对话): 可以渲染成低分辨率图像,并用“Tiny模式”(64个token)处理。信息被高度压缩,只保留最核心的摘要。

这种“渐进式光学压缩”机制,彻底改变了长上下文的游戏规则。目前的“千万token”模型试图暴力保留所有细节,导致成本不可持续;而传统的“滑动窗口”则是一种“信息悬崖”,历史信息被彻底丢弃。DeepSeek提出的“光学遗忘”在计算成本和信息保真度之间实现了一种动态且优雅的平衡。模型不再需要处理 $1000 text{万} + 1000$ 个token,而可能只需要处理 $1000$ (当前) + $256$ (近期) + $64$ (远期) = $1320$ 个token,就实现了对海量历史信息的全局访问。

当然,目前的实现是一种“均匀压缩”,而非“选择性遗忘”——它会同等程度地模糊掉关键信息和垃圾信息。实现像人类一样“有重点地遗忘”,将是该领域下一个需要攀登的高峰。

终极愿景:以像素统一输入流,彻底告别分词器

如果说“光学遗忘”是DeepSeek的长期目标,那么这一范式转变的直接影响,正如特斯拉前AI总监Andrej Karpathy所指出的,可能是彻底终结“分词器”(Tokenizer)的存在,并建立一种更通用、更自然的AI输入流。

打开今日头条查看图片详情

分词器一直是LLM架构中一个“肮脏的补丁”。它基于有限的词汇表,难以处理新词、代码、数学公式和多语言混合;它将语义相关的词切碎,迫使模型浪费算力去重新学习“apple”和“pie”的关系。

而“像素流”从根本上解决了这个问题。

  1. 信息通用性: 像素是真正的“通用媒介”。它不需要区分文本、粗体、颜色、表格、图表还是照片。人类在阅读文档时,就是在用视觉系统处理一个混合了布局、形状和符号的2D平面。DeepSeek的方案让AI的输入方式与人类的感知方式保持一致。
  2. 效率与鲁棒性: 它彻底删除了分词器这个脆弱且依赖特定语言的组件。所有信息(包括代码、数学、多语言)都被平等地“视觉化”,由VLM强大的感知能力去“阅读”,这远比基于固定词表的文本处理更加鲁棒和灵活。
  3. 处理方式: 图像天然适合“双向注意力”(Bidirectional Attention)处理,这比文本常用的自回归(Autoregressive)单向注意力在理解上下文时“强大得多”。

DeepSeek-OCR 的发布,远不止是开源了一个SOTA的OCR工具。它是一份宣言,一份详细的、经过严密实验验证的系统架构蓝图。它指出,我们或许不必在 $O(n^2)$ 的泥潭中继续内卷,而是可以退后一步,将信息从抽象的“文本符号”转换回具象的“视觉像素”,用一种更接近生物智能的方式,来构建AGI的记忆和输入系统。