离开Meta的田渊栋团队,最近抛出了个让大模型圈炸锅的研究。

明明RL训练能让模型在数学、编程上突飞猛进,可仔细一看,居然只改动了极少数参数。

作为天天跟大模型打交道的人,这个现象我之前也纳闷过。

OpenAI-o3、DeepSeek-R1这些模型,靠RL训练变得越来越能打,按常理,能力暴涨不得大改参数?结果人家偏不,就挑着少数参数“小修小补”,这操作属实让人摸不着头脑。

打开今日头条查看图片详情

田渊栋团队的研究算是把这个谜题摆到了台面上。

他们拿Qwen系列、DeepSeek-R1-Distill-Qwen这些开源模型做了实验,一测才发现,RL训练的参数更新稀疏程度和监督微调(SFT)差得不是一点半点。

SFT训练时参数改动很密集,而RL训练就像“挑肥拣瘦”,只盯着一小部分参数下手。

本来想是不是RL训练的步数不够多,后来发现就算训练超3000步,覆盖了数学、编程、STEM等好几种任务,稀疏程度还是居高不下。

打开今日头条查看图片详情

参数更新“精打细算”?RL与SFT的核心差异藏不住了

很多人可能会觉得,RL训练只改少量参数,是不是效果有水分?但实际情况是,经过RL训练的模型,复杂任务处理能力确实肉眼可见地提升。

这就形成了一个特别矛盾的情况:改得少,却做得好。

田渊栋团队指出,这可不是RL训练“偷懒”,而是背后有一套固定的优化偏好在主导。

SFT训练更像是“死记硬背”,为了接近标准答案,会大胆改动模型里那些影响大的参数。

可这种改动有个问题,容易把模型原有的能力框架打乱,后续处理复杂推理任务时就容易掉链子。

打开今日头条查看图片详情

RL训练则完全不同,它走的是“稳健路线”,就算要提升能力,也不会大刀阔斧地改参数。

这种差异的根源,田渊栋团队扒得很透彻。

他们发现,预训练模型本身就有高度结构化的几何特性,有些参数负责核心逻辑,改动起来影响大但不稳定。

SFT偏爱改这些“关键参数”,而RL则倾向于避开它们,选择那些改动阻力小、稳定性高的参数下手。

如此看来,RL训练的“精打细算”,其实是一种更聪明的优化策略。

打开今日头条查看图片详情

但光看表面的稀疏可不行,田渊栋团队还发现了一个关键问题:参数更新的稀疏只是表象。

他们用更高精度的训练方式测试后发现,其实有更多参数发生了微小改动,只是被bfloat16的有限精度给“隐藏”了。

这一下就说得通了,不是RL不想改更多参数,而是训练精度和模型本身的特性,共同筛选出了“优先更新名单”。

三门理论拆盲盒原来RL训练早有“专属路线”

为了把这个过程讲清楚,田渊栋团队提出了三门理论。

这三个“门”就像RL训练的三道筛选关卡,一步步把参数更新引导到了特定方向。

打开今日头条查看图片详情

第一道门是KL锚定。

RL训练本质是“试错学习”,但它有个底线,不能学完之后连输出风格都变了。

比如原来简洁的模型,不能越学越啰嗦。

这个机制就像给模型划了条安全线,每一步更新都不能偏离当前的策略太远。

绝了!大模型提效不用大改参数,RL训练的三门“筛选机制”曝光

就算有些算法没明确说要遵守这个规则,实际训练中也会通过各种技巧来实现类似效果。

毫无疑问,这道门从根本上限制了参数的移动范围。

打开今日头条查看图片详情

第二道门是模型几何。

预训练模型的参数空间不是杂乱无章的,而是有明确结构的。

有些区域的参数改动起来影响大,对应高曲率区域,有些则相对平缓,是低曲率区域。

在KL锚定的约束下,RL更新自然会偏向低曲率方向,这样既能提升能力,又不会破坏模型原有的权重结构。

我觉得这个发现太关键了,之前很多人做RL训练总想着多改参数,现在看来完全找错了方向。

模型的预训练几何结构早就定好了“最优路线”,硬要往高曲率区域改,反而容易把模型搞乱。

第三道门是精度过滤。

打开今日头条查看图片详情

我们平时训练大模型常用的bfloat16精度,只有7位尾数,一些特别小的参数改动根本无法表示。

RL训练一直盯着特定参数子集更新,那些微小的改动就被“过滤”掉了,最后呈现出来的就是稀疏的效果。

如果换成精度更高的float32,就能发现更多参数其实都有变动。

搞不清这一点,很容易误以为RL训练真的只改了极少数参数。

为了验证这三门理论,田渊栋团队做了不少实验。

他们通过奇异值分解分析发现,RL更新总是避开那些主成分权重,反而更倾向于低幅度权重。

打开今日头条查看图片详情

还有个更有意思的实验,他们故意打乱了模型特定层的几何结构,结果被打乱的层里,参数更新就变得毫无规律,而没被改动的层则保持正常。

这就直接证明了,模型几何结构确实是RL优化偏好的重要来源。

这些实验结果刷新了我对RL训练的认知。

之前行业里很多人沿用SFT时代的参数高效微调方法做RL训练,效果一直不好。

现在终于明白,那些方法都是顺着主成分权重的方向更新,而这正是RL训练要避开的。

打开今日头条查看图片详情

反过来,更新那些非主成分、低幅度的权重,反而能达到更好的效果。

就连最近很火的PiSSA方法,在RL训练里也没比普通LoRA强多少,高学习率下还容易不稳定,核心原因就是它违背了RL的优化偏好。

田渊栋团队的研究算是把RL训练的“底层逻辑”给扒清楚了。

三门理论不仅解释了“少改参数多提效”的悖论,还为后续训练算法优化指了明路。

未来再做RL训练,与其盲目堆参数改动,不如顺着模型的优化偏好来,说不定能少走很多弯路。

打开今日头条查看图片详情

对于大模型行业来说,这样的基础研究太重要了,它能帮我们跳出“多改多提升”的思维定式,找到更高效、更稳健的训练路径。

而田渊栋团队离开Meta后依然坚持深耕这类核心问题,这种专注也值得我们点赞。

要不要我帮你把文章里的案例细节进一步具象化,或者针对某类大模型的RL训练场景做专项解读?