|
|
这项由中国人民大学高岭人工智能学院与中国矿业大学(北京)联合开展的研究,以预印本形式于2026年4月发表,论文编号为arXiv:2604.11446。研究的核心问题是:训练一个强大的推理AI,真的需要一步一步走完全程吗?
要说清楚这项研究在做什么,先得聊聊AI是怎么"变聪明"的。现在最流行的方法叫做"强化学习"——给AI出一道数学题,让它自己尝试,答对了就奖励,答错了就惩罚,就这样反复练习几百次,AI的解题能力会显著提升。这个过程有个专业名字叫RLVR(基于可验证奖励的强化学习),DeepSeek、OpenAI的o1等近年最火的推理模型,都是靠这套方法练出来的。
问题也随之而来。这种训练方式极其耗费计算资源。每一轮练习,AI都要生成大量尝试性答案,这就像让一个学生每道题都要写八份不同的解题草稿,然后才能从中学习——代价惊人。随着模型越来越大、问题越来越复杂,这笔"学费"正在变得难以承受。
中国人民大学的研究团队换了一个思路:既然我们能观察到AI在训练过程中"参数"(可以理解为AI大脑内部的各种旋钮和开关)如何变化,能不能根据前几步的变化趋势,直接预测未来某步的参数状态,从而跳过中间大量重复的训练步骤?
这个想法并非没有先例。此前已有研究者尝试过"线性外推"的方法——观察参数按某个方向变化,然后用直线延伸来预测未来。然而,该团队在仔细研究了AI训练过程中参数的实际变化轨迹后发现,这些轨迹根本不是一条直线,而是弯弯曲曲的曲线。依靠画直线来猜曲线终点,误差自然难以避免。
基于这个发现,研究团队提出了一套名为NExt(非线性低秩轨迹外推)的新框架。这套方法的核心思路是:不用直线,改用一个专门训练的"轨迹预测器"来捕捉参数变化的真实弯曲规律,然后做更准确的预测跳跃。
实验结果表明,NExt只需要250步训练,就能达到传统方法跑400步才能达到的效果,整体训练时间缩短了约37.5%。对于一个3B参数的模型,训练时间从18.7小时压缩到了11.7小时。
一、AI训练为什么这么"费钱"
理解这项研究的价值,先要理解这个"费钱"到底费在哪里。
当我们让AI做强化学习时,每训练一步,大致需要经历这样一个循环:给AI出一道题,AI生成多个解答(通常是8个甚至更多),评分系统判断哪些对哪些错,然后根据这些结果更新AI的参数,告诉它"这种思路更好,那种思路要避免"。
每次更新参数,AI内部成千上万个矩阵(可以把每个矩阵想象成一张巨大的数字表格,记录着神经网络的连接强度)都会发生微小的改变。一个7B参数的模型,其内部有数以亿计的参数需要管理。训练400步,就意味着要重复这个庞大的循环400次。
计算量最大的环节恰恰是生成答案这一步。生成一个完整的解题过程,AI需要逐字逐词地输出,每输出一个词都要调用整个模型进行一次计算。生成8份草稿,就是8次这样的计算。对于能写出几百字推理过程的复杂问题,这个代价是相当可观的。
研究团队因此提出了一个根本性的问题:这400步训练是否每一步都不可或缺?参数从起点到终点的变化,是否存在某种可以提前预知的规律,让我们能够"预见未来",直接跳到更靠近终点的位置,再从那里继续训练?
二、大脑里的"主导方向":低秩子空间究竟是什么
要解释这项研究,必须先讲一个关键概念——低秩子空间,尤其是其中最简单的"秩-1子空间"。
假设AI的某一层参数是一张1000行×1000列的数字表格,共100万个数。要描述这张表格从训练前到某个时间点"变化了多少",就需要另一张同样大小的差值表格(研究中称为"参数差异矩阵",即?W)。100万个数,存储和计算都很麻烦。
数学家很早就发现,很多这样的差异矩阵具有一个特点:虽然它有100万个数,但这些数之间有很强的规律性,可以用更少的信息来近似描述。最极端的情况是:整张表格几乎可以由一列数字和一行数字的乘积来表达——这就是"秩-1近似"。一列1000个数加一行1000个数,只需要2000个数,就能近似还原一张100万元素的表格,信息压缩了500倍。
这个"一列一行"所定义的方向,就叫做"秩-1子空间",它代表着参数变化最主要、最集中的那个方向。可以把它理解为:虽然AI的大脑在训练中有无数细微的调整,但最核心的变化实际上是朝着某一个主导方向在移动。
研究团队想知道的是:在RLVR训练过程中,这个主导方向究竟有多"主导"?随着训练的进行,它的影响力是在增强还是减弱?它的变化规律是直线还是曲线?
三、两个关键发现:LoRA让主导方向更强,但轨迹是弯曲的
研究团队做了一系列实验来回答上面的问题,得出了两个重要结论,这两个结论共同构成了NExt方法的理论基础。
第一个发现关于"主导方向有多强"。研究者用一个叫做"能量比"的指标来衡量这个主导方向的影响力——简单说,就是这个主导方向的变化量,占到参数总变化量的百分比。如果这个比例接近100%,说明参数变化几乎全部集中在一个方向上,低秩近似非常精准;如果接近0%,说明变化非常分散,低秩近似误差会很大。
实验发现,在训练早期,这个能量比会逐渐升高——说明随着训练推进,参数变化越来越集中。更重要的是,当使用一种叫做LoRA(低秩适配)的参数高效微调方法时,这个能量比会比全参数微调高得多。
LoRA是一种训练技巧:不直接修改模型的全部参数,而是在原始参数旁边附加一个小的"适配器"(两个小矩阵的乘积),只训练这个小适配器。因为适配器本身结构就是低秩的,所以用LoRA训练出来的参数变化,天然就会更集中在低秩方向上。这就像用一支笔在纸上写字,笔迹会自然地集中在某些笔画方向上,而不是随机涂抹。
这个发现意味着:用LoRA做RLVR训练,参数变化会更容易被低秩近似所捕捉,后续的预测工作因此更准确。
第二个发现关于"主导方向如何随时间变化"。研究者用前10个检查点(训练过程中定期保存的参数快照)来预测后5个检查点的主导方向,使用的是最简单的线性回归——也就是假设变化是匀速直线运动,根据过去的轨迹画一条直线推测未来。
结果令人意外:超过50%的参数对应的主导方向,用线性预测的效果非常差(R?小于0),有相当一部分甚至更差(R?小于-0.5)。R?是衡量预测质量的指标,R?为1表示预测完美,R?为0表示预测毫无价值,R?为负数则意味着比"直接用平均值来猜"还要糟糕。
这说明参数主导方向的演化路径本质上是弯曲的,不能用直线来描述。此前那些依赖线性外推的方法,在预测远期参数时会出现系统性偏差,把模型推向一个偏离最优方向的错误状态。
四、NExt如何工作:一个三步走的预测方案
基于上述两个发现,研究团队设计了NExt框架。整个流程可以分为三个阶段,下面逐一解释。
第一阶段是"收集训练轨迹"。用LoRA方法对AI进行RLVR训练,在前150步中每10步保存一次参数快照,共保存15个检查点。然后,对相邻检查点之间的参数差异、当前检查点与起点之间的参数差异,以及跨越多步的参数差异,分别进行计算,并对每个差异矩阵提取其秩-1近似(一个数值σ、一列向量u、一行向量v)。这三类差异在论文中分别被称为"局部差异"、"全局差异"和"目标差异"。
局部差异反映的是模型最近一步的变化趋势,类似于"最近在往哪个方向走";全局差异反映的是从训练起点到现在的累积变化,类似于"总体上已经走了多远、朝着什么方向";目标差异则是预测器需要学习的"答案",代表着未来若干步后参数会变化多少。
经过秩-1压缩后,每个参数矩阵的差异不再是一张庞大的表格,而是三个向量(u、v和一个标量σ),参数量从O(n×m)降低到了O(n+m),大幅减少了计算开销。
第二阶段是"训练轨迹预测器"。预测器是一个相对轻量的神经网络,采用编码器-解码器结构:两个独立的编码器分别处理全局差异和局部差异的向量信息,将它们编码成隐藏表示;然后将两个隐藏表示拼接,送入解码器,输出预测的目标差异向量。
训练预测器时,输入是历史轨迹中各个检查点的全局差异和局部差异,输出目标是对应的目标差异,使用L1损失(绝对值误差之和)来优化。选择L1而非L2(均方误差)的原因是:L2在误差较小时梯度会变得很小,不利于训练收敛;L1则不存在这个问题。
为了保证预测质量,研究者还加入了两个工程细节:对预测出的u和v向量进行归一化处理(确保它们是单位向量,因为SVD分解得到的奇异向量本来就应该是单位向量);以及将相同维度的向量批量拼接处理,充分利用GPU的并行计算能力加速训练和推理。
第三阶段是"预测并延伸"。训练完预测器后,对最后一个检查点的全局差异和局部差异进行提取,送入预测器得到预测的目标差异向量,重建成预测的差异矩阵?W,然后用公式 W = W + α·?W 更新模型参数,其中α是一个"延伸系数",默认设置为1.5。
这里的延伸系数起到了"适度放大预测步幅"的作用——预测器预测的是训练50步后的状态,乘以α=1.5相当于让跳跃更远一些,直接逼近更靠后的训练效果。得到外推后的模型参数,再从这个新起点继续做100步RLVR训练,最终完成整个NExt流程,总计只需250步。
五、实验结果:数字背后的真实差距
研究团队在四个不同规模的模型(1.5B、3B、7B、14B参数,均为Qwen2.5系列)上进行了系统测试,评估任务包括五个数学竞赛题集:AIME2024、AIME2025、AMC2023、Minerva和OlymMATH(简单版)。
以7B模型为例,传统GRPO方法(全参数微调)训练250步后,五个任务的平均准确率为23.1%,训练400步后提升到24.0%;使用NExt只需250步,平均准确率达到24.2%,不仅超过了400步全参数训练,也超过了250步和400步的LoRA训练(分别为22.1%和23.5%)。
对比同样做了RLVR参数外推的竞争方法,差距更为明显。AlphaRL在7B模型上250步训练后平均准确率只有21.6%,RL-Extra是22.7%,而NExt是24.2%。两个竞争方法都使用了线性外推策略,实验结果的差距直接印证了"参数轨迹是弯曲的,线性假设会带来偏差"这一核心论断。
研究者还专门引入了一个综合衡量指标——增量成本效益比(ICER),计算方式是"训练步数除以性能提升量再乘以100%",数值越低表示每花一份资源能获得的性能提升越大。NExt在7B模型上的ICER为49.0,而GRPO全参数250步为62.5、AlphaRL为100.0。
在资源消耗的直接对比上,用4×A800服务器测试,3B模型的GRPO训练需要18.7小时,NExt只需11.7小时;1.5B模型从12小时降到7.4小时,均实现了约37.5%的时间节省。特别值得注意的是,NExt新引入的SVD计算、预测器训练和外推操作,在整体时间中占比极小,几乎可以忽略不计,节省的时间完全来自减少了RLVR训练步数。
14B模型的表现同样出色。传统GRPO400步平均准确率为27.7%,而NExt只需250步就达到28.3%,ICER仅为33.3,是所有方法中效率最高的。
六、稳健性验证:方法的边界和适用范围
一项好的方法必须经得起各种条件下的检验,研究团队为此设计了多组补充实验。
关于延伸系数α的敏感性,研究者测试了α从0.5到4.0的八个取值。当α在0.5到2.5之间时,模型性能相当稳定,始终好于外推前的状态,说明方法对这个超参数不敏感;当α超过2.5后,性能开始出现波动,α极大时性能可能下降。这个现象同时也从侧面证明了线性外推的局限性:用纯线性方法放大步长,不稳定性会随之迅速增加,而NExt的预测-延伸结构能在一定程度上缓解这个问题。
消融实验中,研究团队逐一"拆掉"NExt的不同组件来测试每部分的贡献。去掉LoRA改用全参数微调(保持其他设置不变),性能明显下降,证实了LoRA对提升秩-1子空间主导性的实际作用。去掉全局差异(只用局部差异做预测),或者去掉局部差异(只用全局差异),性能都会下降,而且后续再做RLVR训练也无法完全弥补。这说明两类信息缺一不可:全局差异提供了训练积累的方向感,局部差异提供了当前变化的即时信息,二者结合才能准确估计未来的变化趋势。
关于算法普适性,研究团队将NExt与两种不同的RLVR算法(RLOO和REINFORCE++)结合测试。以3B模型为例,RLOO传统训练400步平均准确率为27.3%,接入NExt后250步达到28.5%;REINFORCE++传统400步为26.5%,NExt250步达到27.9%。两种算法下NExt都表现出同样的加速效果,证明该方法不依赖于具体RL算法的特性,可以作为通用加速模块使用。
关于任务迁移能力,研究团队还在MMLU-Pro(涵盖生物、商业、化学、计算机科学、经济、工程、健康、历史、法律、数学、哲学、物理、心理、其他等14个学科的多选题综合测试)和GPQA Diamond(研究生级别的科学知识问答)上进行了测试。在MMLU-Pro上,NExt在250步内就能达到GRPO 400步的平均水准,并在多个子领域(如数学、化学、心理学等)超过所有基线方法。在GPQA任务上,NExt在获得相近甚至更好准确率的同时,GPU小时数明显低于传统RLVR,外推步骤本身消耗的算力极小。这些结果表明,NExt的加速效果并不局限于数学推理,可以推广到更广泛的知识密集型任务。
七、与同类方法的核心差异
研究团队在论文中整理了一张对比表,将NExt与其他参数外推方法系统对比。在这之前已经有多种外推方法存在,但它们可以归为几类不同的路线。
WSM和MAEC主要用于预训练阶段,前者通过合并多个检查点的权重来获得更平稳的优化轨迹,后者专门识别并外推模型中的关键神经元,两者都依赖线性组合。DARE是SFT阶段的方法,通过随机丢弃一部分参数后进行线性外推,降低对原始知识的干扰。Greedy Soup同样用于SFT,将多个微调版本的参数做线性平均。
专为RLVR设计的AlphaRL和RL-Extra,是NExt最直接的竞争对手。AlphaRL对全参数进行训练,然后对秩-1子空间进行线性外推;RL-Extra对全参数进行线性外推。两者的共同缺陷是对线性假设的依赖。ExPO则应用于对齐阶段,同样是全参数的线性外推。
NExt在这张表里的独特之处体现在两个维度:训练时只优化LoRA适配器而非全部参数,外推时使用非线性预测器而非线性公式。这两个设计分别对应前文所述的两个核心发现:LoRA能放大秩-1子空间的主导性,非线性预测能更准确地捕捉弯曲的演化轨迹。
说到底,这项研究做的事情用一句话概括就是:以前人们以为AI训练过程中参数的变化是走直路,所以用尺子量了前几步,然后顺着直线预测终点;NExt发现这条路其实是弯的,于是训练了一个能感知弯度的预测工具,预测得更准,跳跃的也更远。
37.5%的时间节省,对个人研究者来说可能意味着几天的等待变成了几个小时;对大型研究机构来说,则意味着每次训练都能节省可观的电费和算力成本。更重要的是,这套方法揭示了一个此前被忽视的事实:AI在强化学习训练中,内部参数的变化并非单调线性,而是有着更丰富的非线性结构,这个结构是可以被学习和利用的。
有兴趣深入了解技术细节的读者,可以通过arXiv编号2604.11446查阅完整论文,代码已在GitHub上的RUCAIBox/NExt仓库公开发布。
Q&A
Q1:NExt方法的"延伸系数α"设为多少比较合适,太大或太小有什么影响?
A:根据实验结果,延伸系数α在0.5到2.5之间时,模型性能相当稳定,而且都能好于外推前的状态。论文中默认使用α=1.5。当α超过2.5后,性能开始出现波动,α极大时模型表现甚至可能变差。这是因为延伸系数本质上是在做线性放大,放大倍数过大时线性外推的不稳定性就会暴露出来。所以实际使用时建议选1.0到2.0之间,不要设得太激进。
Q2:NExt中的"秩-1子空间"为什么能代表参数变化的主要信息?
A:参数差异矩阵经过奇异值分解(SVD)后,会得到一系列按重要性排序的"方向"。秩-1子空间对应其中最重要的那个方向,它的"能量比"(即这个方向的变化量占总变化量的比例)在LoRA训练过程中会持续升高,表明参数变化越来越集中在这一个方向上。用秩-1近似,参数量从O(n×m)压缩到O(n+m),信息损失却很小,因此既高效又准确。
Q3:NExt适用于哪些AI训练场景,只能用于数学推理任务吗?
A:不局限于数学推理。论文在MMLU-Pro(14个学科的综合知识测试)和GPQA Diamond(研究生级别科学问答)上同样验证了NExt的有效性,均能在更少训练步数内达到传统方法的效果。此外,NExt也不依赖特定的强化学习算法,与GRPO、RLOO、REINFORCE++都能兼容,属于通用的训练加速模块,理论上可以应用于任何基于RLVR范式的LLM训练场景。 |
|