离开Meta的田渊栋团队,最近抛出了个让大模型圈炸锅的研究。
明明RL训练能让模型在数学、编程上突飞猛进,可仔细一看,居然只改动了极少数参数。
作为天天跟大模型打交道的人,这个现象我之前也纳闷过。
OpenAI-o3、DeepSeek-R1这些模型,靠RL训练变得越来越能打,按常理,能力暴涨不得大改参数?结果人家偏不,就挑着少数参数“小修小补”,这操作属实让人摸不着头脑。
打开今日头条查看图片详情
田渊栋团队的研究算是把这个谜题摆到了台面上。
他们拿Qwen系列、DeepSeek-R1-Distill-Qwen这些开源模型做了实验,一测才发现,RL训练的参数更新稀疏程度和监督微调(SFT)差得不是一点半点。
SFT训练时参数改动很密集,而RL训练就像“挑肥拣瘦”,只盯着一小部分参数下手。
本来想是不是RL训练的步数不够多,后来发现就算训练超3000步,覆盖了数学、编程、STEM等好几种任务,稀疏程度还是居高不下。
打开今日头条查看图片详情
参数更新“精打细算”?RL与SFT的核心差异藏不住了
很多人可能会觉得,RL训练只改少量参数,是不是效果有水分?但实际情况是,经过RL训练的模型,复杂任务处理能力确实肉眼可见地提升。
这就形成了一个特别矛盾的情况:改得少,却做得好。
田渊栋团队指出,这可不是RL训练“偷懒”,而是背后有一套固定的优化偏好在主导。
SFT训练更像是“死记硬背”,为了接近标准答案,会大胆改动模型里那些影响大的参数。
可这种改动有个问题,容易把模型原有的能力框架打乱,后续处理复杂推理任务时就容易掉链子。
打开今日头条查看图片详情
RL训练则完全不同,它走的是“稳健路线”,就算要提升能力,也不会大刀阔斧地改参数。
这种差异的根源,田渊栋团队扒得很透彻。
他们发现,预训练模型本身就有高度结构化的几何特性,有些参数负责核心逻辑,改动起来影响大但不稳定。
SFT偏爱改这些“关键参数”,而RL则倾向于避开它们,选择那些改动阻力小、稳定性高的参数下手。
如此看来,RL训练的“精打细算”,其实是一种更聪明的优化策略。
打开今日头条查看图片详情
但光看表面的稀疏可不行,田渊栋团队还发现了一个关键问题:参数更新的稀疏只是表象。
他们用更高精度的训练方式测试后发现,其实有更多参数发生了微小改动,只是被bfloat16的有限精度给“隐藏”了。
这一下就说得通了,不是RL不想改更多参数,而是训练精度和模型本身的特性,共同筛选出了“优先更新名单”。
三门理论拆盲盒原来RL训练早有“专属路线”
为了把这个过程讲清楚,田渊栋团队提出了三门理论。
这三个“门”就像RL训练的三道筛选关卡,一步步把参数更新引导到了特定方向。
打开今日头条查看图片详情
第一道门是KL锚定。
RL训练本质是“试错学习”,但它有个底线,不能学完之后连输出风格都变了。
比如原来简洁的模型,不能越学越啰嗦。
这个机制就像给模型划了条安全线,每一步更新都不能偏离当前的策略太远。

就算有些算法没明确说要遵守这个规则,实际训练中也会通过各种技巧来实现类似效果。
毫无疑问,这道门从根本上限制了参数的移动范围。
打开今日头条查看图片详情
第二道门是模型几何。
预训练模型的参数空间不是杂乱无章的,而是有明确结构的。
有些区域的参数改动起来影响大,对应高曲率区域,有些则相对平缓,是低曲率区域。
在KL锚定的约束下,RL更新自然会偏向低曲率方向,这样既能提升能力,又不会破坏模型原有的权重结构。
我觉得这个发现太关键了,之前很多人做RL训练总想着多改参数,现在看来完全找错了方向。
模型的预训练几何结构早就定好了“最优路线”,硬要往高曲率区域改,反而容易把模型搞乱。
第三道门是精度过滤。
打开今日头条查看图片详情
我们平时训练大模型常用的bfloat16精度,只有7位尾数,一些特别小的参数改动根本无法表示。
RL训练一直盯着特定参数子集更新,那些微小的改动就被“过滤”掉了,最后呈现出来的就是稀疏的效果。
如果换成精度更高的float32,就能发现更多参数其实都有变动。
搞不清这一点,很容易误以为RL训练真的只改了极少数参数。
为了验证这三门理论,田渊栋团队做了不少实验。
他们通过奇异值分解分析发现,RL更新总是避开那些主成分权重,反而更倾向于低幅度权重。
打开今日头条查看图片详情
还有个更有意思的实验,他们故意打乱了模型特定层的几何结构,结果被打乱的层里,参数更新就变得毫无规律,而没被改动的层则保持正常。
这就直接证明了,模型几何结构确实是RL优化偏好的重要来源。
这些实验结果刷新了我对RL训练的认知。
之前行业里很多人沿用SFT时代的参数高效微调方法做RL训练,效果一直不好。
现在终于明白,那些方法都是顺着主成分权重的方向更新,而这正是RL训练要避开的。
打开今日头条查看图片详情
反过来,更新那些非主成分、低幅度的权重,反而能达到更好的效果。
就连最近很火的PiSSA方法,在RL训练里也没比普通LoRA强多少,高学习率下还容易不稳定,核心原因就是它违背了RL的优化偏好。
田渊栋团队的研究算是把RL训练的“底层逻辑”给扒清楚了。
三门理论不仅解释了“少改参数多提效”的悖论,还为后续训练算法优化指了明路。
未来再做RL训练,与其盲目堆参数改动,不如顺着模型的优化偏好来,说不定能少走很多弯路。
打开今日头条查看图片详情
对于大模型行业来说,这样的基础研究太重要了,它能帮我们跳出“多改多提升”的思维定式,找到更高效、更稳健的训练路径。
而田渊栋团队离开Meta后依然坚持深耕这类核心问题,这种专注也值得我们点赞。
要不要我帮你把文章里的案例细节进一步具象化,或者针对某类大模型的RL训练场景做专项解读?