绝了！大模型提效不用大改参数，RL训练的三门“筛选机制”曝光

离开Meta的田渊栋团队，最近抛出了个让大模型圈炸锅的研究。

明明RL训练能让模型在数学、编程上突飞猛进，可仔细一看，居然只改动了极少数参数。

作为天天跟大模型打交道的人，这个现象我之前也纳闷过。

OpenAI-o3、DeepSeek-R1这些模型，靠RL训练变得越来越能打，按常理，能力暴涨不得大改参数？结果人家偏不，就挑着少数参数“小修小补”，这操作属实让人摸不着头脑。

打开今日头条查看图片详情

田渊栋团队的研究算是把这个谜题摆到了台面上。

他们拿Qwen系列、DeepSeek-R1-Distill-Qwen这些开源模型做了实验，一测才发现，RL训练的参数更新稀疏程度和监督微调（SFT）差得不是一点半点。

SFT训练时参数改动很密集，而RL训练就像“挑肥拣瘦”，只盯着一小部分参数下手。

本来想是不是RL训练的步数不够多，后来发现就算训练超3000步，覆盖了数学、编程、STEM等好几种任务，稀疏程度还是居高不下。

打开今日头条查看图片详情

参数更新“精打细算”？RL与SFT的核心差异藏不住了

很多人可能会觉得，RL训练只改少量参数，是不是效果有水分？但实际情况是，经过RL训练的模型，复杂任务处理能力确实肉眼可见地提升。

这就形成了一个特别矛盾的情况：改得少，却做得好。

田渊栋团队指出，这可不是RL训练“偷懒”，而是背后有一套固定的优化偏好在主导。

SFT训练更像是“死记硬背”，为了接近标准答案，会大胆改动模型里那些影响大的参数。

可这种改动有个问题，容易把模型原有的能力框架打乱，后续处理复杂推理任务时就容易掉链子。

打开今日头条查看图片详情

RL训练则完全不同，它走的是“稳健路线”，就算要提升能力，也不会大刀阔斧地改参数。

这种差异的根源，田渊栋团队扒得很透彻。

他们发现，预训练模型本身就有高度结构化的几何特性，有些参数负责核心逻辑，改动起来影响大但不稳定。

SFT偏爱改这些“关键参数”，而RL则倾向于避开它们，选择那些改动阻力小、稳定性高的参数下手。

如此看来，RL训练的“精打细算”，其实是一种更聪明的优化策略。

打开今日头条查看图片详情

但光看表面的稀疏可不行，田渊栋团队还发现了一个关键问题：参数更新的稀疏只是表象。

他们用更高精度的训练方式测试后发现，其实有更多参数发生了微小改动，只是被bfloat16的有限精度给“隐藏”了。

这一下就说得通了，不是RL不想改更多参数，而是训练精度和模型本身的特性，共同筛选出了“优先更新名单”。

三门理论拆盲盒原来RL训练早有“专属路线”

为了把这个过程讲清楚，田渊栋团队提出了三门理论。

这三个“门”就像RL训练的三道筛选关卡，一步步把参数更新引导到了特定方向。

打开今日头条查看图片详情

第一道门是KL锚定。

RL训练本质是“试错学习”，但它有个底线，不能学完之后连输出风格都变了。

比如原来简洁的模型，不能越学越啰嗦。

这个机制就像给模型划了条安全线，每一步更新都不能偏离当前的策略太远。

就算有些算法没明确说要遵守这个规则，实际训练中也会通过各种技巧来实现类似效果。

毫无疑问，这道门从根本上限制了参数的移动范围。

打开今日头条查看图片详情

第二道门是模型几何。

预训练模型的参数空间不是杂乱无章的，而是有明确结构的。

有些区域的参数改动起来影响大，对应高曲率区域，有些则相对平缓，是低曲率区域。

在KL锚定的约束下，RL更新自然会偏向低曲率方向，这样既能提升能力，又不会破坏模型原有的权重结构。

我觉得这个发现太关键了，之前很多人做RL训练总想着多改参数，现在看来完全找错了方向。

模型的预训练几何结构早就定好了“最优路线”，硬要往高曲率区域改，反而容易把模型搞乱。

第三道门是精度过滤。

打开今日头条查看图片详情

我们平时训练大模型常用的bfloat16精度，只有7位尾数，一些特别小的参数改动根本无法表示。

RL训练一直盯着特定参数子集更新，那些微小的改动就被“过滤”掉了，最后呈现出来的就是稀疏的效果。

如果换成精度更高的float32，就能发现更多参数其实都有变动。

搞不清这一点，很容易误以为RL训练真的只改了极少数参数。

为了验证这三门理论，田渊栋团队做了不少实验。

他们通过奇异值分解分析发现，RL更新总是避开那些主成分权重，反而更倾向于低幅度权重。

打开今日头条查看图片详情

还有个更有意思的实验，他们故意打乱了模型特定层的几何结构，结果被打乱的层里，参数更新就变得毫无规律，而没被改动的层则保持正常。

这就直接证明了，模型几何结构确实是RL优化偏好的重要来源。

这些实验结果刷新了我对RL训练的认知。

之前行业里很多人沿用SFT时代的参数高效微调方法做RL训练，效果一直不好。

现在终于明白，那些方法都是顺着主成分权重的方向更新，而这正是RL训练要避开的。

打开今日头条查看图片详情

反过来，更新那些非主成分、低幅度的权重，反而能达到更好的效果。

就连最近很火的PiSSA方法，在RL训练里也没比普通LoRA强多少，高学习率下还容易不稳定，核心原因就是它违背了RL的优化偏好。

田渊栋团队的研究算是把RL训练的“底层逻辑”给扒清楚了。

三门理论不仅解释了“少改参数多提效”的悖论，还为后续训练算法优化指了明路。

未来再做RL训练，与其盲目堆参数改动，不如顺着模型的优化偏好来，说不定能少走很多弯路。

打开今日头条查看图片详情

对于大模型行业来说，这样的基础研究太重要了，它能帮我们跳出“多改多提升”的思维定式，找到更高效、更稳健的训练路径。

而田渊栋团队离开Meta后依然坚持深耕这类核心问题，这种专注也值得我们点赞。

要不要我帮你把文章里的案例细节进一步具象化，或者针对某类大模型的RL训练场景做专项解读？

微精选