中国人民大学团队找到了让AI训练\"抄近道\"的方法

那季花开 · 发表于 2026-4-27 08:53:02

这项由中国人民大学高岭人工智能学院与中国矿业大学（北京）联合开展的研究，以预印本形式于2026年4月发表，论文编号为arXiv:2604.11446。研究的核心问题是：训练一个强大的推理AI，真的需要一步一步走完全程吗？

要说清楚这项研究在做什么，先得聊聊AI是怎么"变聪明"的。现在最流行的方法叫做"强化学习"——给AI出一道数学题，让它自己尝试，答对了就奖励，答错了就惩罚，就这样反复练习几百次，AI的解题能力会显著提升。这个过程有个专业名字叫RLVR（基于可验证奖励的强化学习），DeepSeek、OpenAI的o1等近年最火的推理模型，都是靠这套方法练出来的。
问题也随之而来。这种训练方式极其耗费计算资源。每一轮练习，AI都要生成大量尝试性答案，这就像让一个学生每道题都要写八份不同的解题草稿，然后才能从中学习——代价惊人。随着模型越来越大、问题越来越复杂，这笔"学费"正在变得难以承受。
中国人民大学的研究团队换了一个思路：既然我们能观察到AI在训练过程中"参数"（可以理解为AI大脑内部的各种旋钮和开关）如何变化，能不能根据前几步的变化趋势，直接预测未来某步的参数状态，从而跳过中间大量重复的训练步骤？
这个想法并非没有先例。此前已有研究者尝试过"线性外推"的方法——观察参数按某个方向变化，然后用直线延伸来预测未来。然而，该团队在仔细研究了AI训练过程中参数的实际变化轨迹后发现，这些轨迹根本不是一条直线，而是弯弯曲曲的曲线。依靠画直线来猜曲线终点，误差自然难以避免。
基于这个发现，研究团队提出了一套名为NExt（非线性低秩轨迹外推）的新框架。这套方法的核心思路是：不用直线，改用一个专门训练的"轨迹预测器"来捕捉参数变化的真实弯曲规律，然后做更准确的预测跳跃。
实验结果表明，NExt只需要250步训练，就能达到传统方法跑400步才能达到的效果，整体训练时间缩短了约37.5%。对于一个3B参数的模型，训练时间从18.7小时压缩到了11.7小时。
一、AI训练为什么这么"费钱"
理解这项研究的价值，先要理解这个"费钱"到底费在哪里。
当我们让AI做强化学习时，每训练一步，大致需要经历这样一个循环：给AI出一道题，AI生成多个解答（通常是8个甚至更多），评分系统判断哪些对哪些错，然后根据这些结果更新AI的参数，告诉它"这种思路更好，那种思路要避免"。
每次更新参数，AI内部成千上万个矩阵（可以把每个矩阵想象成一张巨大的数字表格，记录着神经网络的连接强度）都会发生微小的改变。一个7B参数的模型，其内部有数以亿计的参数需要管理。训练400步，就意味着要重复这个庞大的循环400次。
计算量最大的环节恰恰是生成答案这一步。生成一个完整的解题过程，AI需要逐字逐词地输出，每输出一个词都要调用整个模型进行一次计算。生成8份草稿，就是8次这样的计算。对于能写出几百字推理过程的复杂问题，这个代价是相当可观的。
研究团队因此提出了一个根本性的问题：这400步训练是否每一步都不可或缺？参数从起点到终点的变化，是否存在某种可以提前预知的规律，让我们能够"预见未来"，直接跳到更靠近终点的位置，再从那里继续训练？
二、大脑里的"主导方向"：低秩子空间究竟是什么
要解释这项研究，必须先讲一个关键概念——低秩子空间，尤其是其中最简单的"秩-1子空间"。
假设AI的某一层参数是一张1000行×1000列的数字表格，共100万个数。要描述这张表格从训练前到某个时间点"变化了多少"，就需要另一张同样大小的差值表格（研究中称为"参数差异矩阵"，即?W）。100万个数，存储和计算都很麻烦。
数学家很早就发现，很多这样的差异矩阵具有一个特点：虽然它有100万个数，但这些数之间有很强的规律性，可以用更少的信息来近似描述。最极端的情况是：整张表格几乎可以由一列数字和一行数字的乘积来表达——这就是"秩-1近似"。一列1000个数加一行1000个数，只需要2000个数，就能近似还原一张100万元素的表格，信息压缩了500倍。
这个"一列一行"所定义的方向，就叫做"秩-1子空间"，它代表着参数变化最主要、最集中的那个方向。可以把它理解为：虽然AI的大脑在训练中有无数细微的调整，但最核心的变化实际上是朝着某一个主导方向在移动。
研究团队想知道的是：在RLVR训练过程中，这个主导方向究竟有多"主导"？随着训练的进行，它的影响力是在增强还是减弱？它的变化规律是直线还是曲线？
三、两个关键发现：LoRA让主导方向更强，但轨迹是弯曲的
研究团队做了一系列实验来回答上面的问题，得出了两个重要结论，这两个结论共同构成了NExt方法的理论基础。
第一个发现关于"主导方向有多强"。研究者用一个叫做"能量比"的指标来衡量这个主导方向的影响力——简单说，就是这个主导方向的变化量，占到参数总变化量的百分比。如果这个比例接近100%，说明参数变化几乎全部集中在一个方向上，低秩近似非常精准；如果接近0%，说明变化非常分散，低秩近似误差会很大。
实验发现，在训练早期，这个能量比会逐渐升高——说明随着训练推进，参数变化越来越集中。更重要的是，当使用一种叫做LoRA（低秩适配）的参数高效微调方法时，这个能量比会比全参数微调高得多。
LoRA是一种训练技巧：不直接修改模型的全部参数，而是在原始参数旁边附加一个小的"适配器"（两个小矩阵的乘积），只训练这个小适配器。因为适配器本身结构就是低秩的，所以用LoRA训练出来的参数变化，天然就会更集中在低秩方向上。这就像用一支笔在纸上写字，笔迹会自然地集中在某些笔画方向上，而不是随机涂抹。
这个发现意味着：用LoRA做RLVR训练，参数变化会更容易被低秩近似所捕捉，后续的预测工作因此更准确。
第二个发现关于"主导方向如何随时间变化"。研究者用前10个检查点（训练过程中定期保存的参数快照）来预测后5个检查点的主导方向，使用的是最简单的线性回归——也就是假设变化是匀速直线运动，根据过去的轨迹画一条直线推测未来。
结果令人意外：超过50%的参数对应的主导方向，用线性预测的效果非常差（R?小于0），有相当一部分甚至更差（R?小于-0.5）。R?是衡量预测质量的指标，R?为1表示预测完美，R?为0表示预测毫无价值，R?为负数则意味着比"直接用平均值来猜"还要糟糕。
这说明参数主导方向的演化路径本质上是弯曲的，不能用直线来描述。此前那些依赖线性外推的方法，在预测远期参数时会出现系统性偏差，把模型推向一个偏离最优方向的错误状态。
四、NExt如何工作：一个三步走的预测方案
基于上述两个发现，研究团队设计了NExt框架。整个流程可以分为三个阶段，下面逐一解释。
第一阶段是"收集训练轨迹"。用LoRA方法对AI进行RLVR训练，在前150步中每10步保存一次参数快照，共保存15个检查点。然后，对相邻检查点之间的参数差异、当前检查点与起点之间的参数差异，以及跨越多步的参数差异，分别进行计算，并对每个差异矩阵提取其秩-1近似（一个数值σ、一列向量u、一行向量v）。这三类差异在论文中分别被称为"局部差异"、"全局差异"和"目标差异"。
局部差异反映的是模型最近一步的变化趋势，类似于"最近在往哪个方向走"；全局差异反映的是从训练起点到现在的累积变化，类似于"总体上已经走了多远、朝着什么方向"；目标差异则是预测器需要学习的"答案"，代表着未来若干步后参数会变化多少。
经过秩-1压缩后，每个参数矩阵的差异不再是一张庞大的表格，而是三个向量（u、v和一个标量σ），参数量从O(n×m)降低到了O(n+m)，大幅减少了计算开销。
第二阶段是"训练轨迹预测器"。预测器是一个相对轻量的神经网络，采用编码器-解码器结构：两个独立的编码器分别处理全局差异和局部差异的向量信息，将它们编码成隐藏表示；然后将两个隐藏表示拼接，送入解码器，输出预测的目标差异向量。
训练预测器时，输入是历史轨迹中各个检查点的全局差异和局部差异，输出目标是对应的目标差异，使用L1损失（绝对值误差之和）来优化。选择L1而非L2（均方误差）的原因是：L2在误差较小时梯度会变得很小，不利于训练收敛；L1则不存在这个问题。
为了保证预测质量，研究者还加入了两个工程细节：对预测出的u和v向量进行归一化处理（确保它们是单位向量，因为SVD分解得到的奇异向量本来就应该是单位向量）；以及将相同维度的向量批量拼接处理，充分利用GPU的并行计算能力加速训练和推理。
第三阶段是"预测并延伸"。训练完预测器后，对最后一个检查点的全局差异和局部差异进行提取，送入预测器得到预测的目标差异向量，重建成预测的差异矩阵?W，然后用公式 W = W + α·?W 更新模型参数，其中α是一个"延伸系数"，默认设置为1.5。
这里的延伸系数起到了"适度放大预测步幅"的作用——预测器预测的是训练50步后的状态，乘以α=1.5相当于让跳跃更远一些，直接逼近更靠后的训练效果。得到外推后的模型参数，再从这个新起点继续做100步RLVR训练，最终完成整个NExt流程，总计只需250步。
五、实验结果：数字背后的真实差距
研究团队在四个不同规模的模型（1.5B、3B、7B、14B参数，均为Qwen2.5系列）上进行了系统测试，评估任务包括五个数学竞赛题集：AIME2024、AIME2025、AMC2023、Minerva和OlymMATH（简单版）。
以7B模型为例，传统GRPO方法（全参数微调）训练250步后，五个任务的平均准确率为23.1%，训练400步后提升到24.0%；使用NExt只需250步，平均准确率达到24.2%，不仅超过了400步全参数训练，也超过了250步和400步的LoRA训练（分别为22.1%和23.5%）。
对比同样做了RLVR参数外推的竞争方法，差距更为明显。AlphaRL在7B模型上250步训练后平均准确率只有21.6%，RL-Extra是22.7%，而NExt是24.2%。两个竞争方法都使用了线性外推策略，实验结果的差距直接印证了"参数轨迹是弯曲的，线性假设会带来偏差"这一核心论断。
研究者还专门引入了一个综合衡量指标——增量成本效益比（ICER），计算方式是"训练步数除以性能提升量再乘以100%"，数值越低表示每花一份资源能获得的性能提升越大。NExt在7B模型上的ICER为49.0，而GRPO全参数250步为62.5、AlphaRL为100.0。
在资源消耗的直接对比上，用4×A800服务器测试，3B模型的GRPO训练需要18.7小时，NExt只需11.7小时；1.5B模型从12小时降到7.4小时，均实现了约37.5%的时间节省。特别值得注意的是，NExt新引入的SVD计算、预测器训练和外推操作，在整体时间中占比极小，几乎可以忽略不计，节省的时间完全来自减少了RLVR训练步数。
14B模型的表现同样出色。传统GRPO400步平均准确率为27.7%，而NExt只需250步就达到28.3%，ICER仅为33.3，是所有方法中效率最高的。
六、稳健性验证：方法的边界和适用范围
一项好的方法必须经得起各种条件下的检验，研究团队为此设计了多组补充实验。
关于延伸系数α的敏感性，研究者测试了α从0.5到4.0的八个取值。当α在0.5到2.5之间时，模型性能相当稳定，始终好于外推前的状态，说明方法对这个超参数不敏感；当α超过2.5后，性能开始出现波动，α极大时性能可能下降。这个现象同时也从侧面证明了线性外推的局限性：用纯线性方法放大步长，不稳定性会随之迅速增加，而NExt的预测-延伸结构能在一定程度上缓解这个问题。
消融实验中，研究团队逐一"拆掉"NExt的不同组件来测试每部分的贡献。去掉LoRA改用全参数微调（保持其他设置不变），性能明显下降，证实了LoRA对提升秩-1子空间主导性的实际作用。去掉全局差异（只用局部差异做预测），或者去掉局部差异（只用全局差异），性能都会下降，而且后续再做RLVR训练也无法完全弥补。这说明两类信息缺一不可：全局差异提供了训练积累的方向感，局部差异提供了当前变化的即时信息，二者结合才能准确估计未来的变化趋势。
关于算法普适性，研究团队将NExt与两种不同的RLVR算法（RLOO和REINFORCE++）结合测试。以3B模型为例，RLOO传统训练400步平均准确率为27.3%，接入NExt后250步达到28.5%；REINFORCE++传统400步为26.5%，NExt250步达到27.9%。两种算法下NExt都表现出同样的加速效果，证明该方法不依赖于具体RL算法的特性，可以作为通用加速模块使用。
关于任务迁移能力，研究团队还在MMLU-Pro（涵盖生物、商业、化学、计算机科学、经济、工程、健康、历史、法律、数学、哲学、物理、心理、其他等14个学科的多选题综合测试）和GPQA Diamond（研究生级别的科学知识问答）上进行了测试。在MMLU-Pro上，NExt在250步内就能达到GRPO 400步的平均水准，并在多个子领域（如数学、化学、心理学等）超过所有基线方法。在GPQA任务上，NExt在获得相近甚至更好准确率的同时，GPU小时数明显低于传统RLVR，外推步骤本身消耗的算力极小。这些结果表明，NExt的加速效果并不局限于数学推理，可以推广到更广泛的知识密集型任务。
七、与同类方法的核心差异
研究团队在论文中整理了一张对比表，将NExt与其他参数外推方法系统对比。在这之前已经有多种外推方法存在，但它们可以归为几类不同的路线。
WSM和MAEC主要用于预训练阶段，前者通过合并多个检查点的权重来获得更平稳的优化轨迹，后者专门识别并外推模型中的关键神经元，两者都依赖线性组合。DARE是SFT阶段的方法，通过随机丢弃一部分参数后进行线性外推，降低对原始知识的干扰。Greedy Soup同样用于SFT，将多个微调版本的参数做线性平均。
专为RLVR设计的AlphaRL和RL-Extra，是NExt最直接的竞争对手。AlphaRL对全参数进行训练，然后对秩-1子空间进行线性外推；RL-Extra对全参数进行线性外推。两者的共同缺陷是对线性假设的依赖。ExPO则应用于对齐阶段，同样是全参数的线性外推。
NExt在这张表里的独特之处体现在两个维度：训练时只优化LoRA适配器而非全部参数，外推时使用非线性预测器而非线性公式。这两个设计分别对应前文所述的两个核心发现：LoRA能放大秩-1子空间的主导性，非线性预测能更准确地捕捉弯曲的演化轨迹。
说到底，这项研究做的事情用一句话概括就是：以前人们以为AI训练过程中参数的变化是走直路，所以用尺子量了前几步，然后顺着直线预测终点；NExt发现这条路其实是弯的，于是训练了一个能感知弯度的预测工具，预测得更准，跳跃的也更远。
37.5%的时间节省，对个人研究者来说可能意味着几天的等待变成了几个小时；对大型研究机构来说，则意味着每次训练都能节省可观的电费和算力成本。更重要的是，这套方法揭示了一个此前被忽视的事实：AI在强化学习训练中，内部参数的变化并非单调线性，而是有着更丰富的非线性结构，这个结构是可以被学习和利用的。
有兴趣深入了解技术细节的读者，可以通过arXiv编号2604.11446查阅完整论文，代码已在GitHub上的RUCAIBox/NExt仓库公开发布。
Q&A
Q1：NExt方法的"延伸系数α"设为多少比较合适，太大或太小有什么影响？
A：根据实验结果，延伸系数α在0.5到2.5之间时，模型性能相当稳定，而且都能好于外推前的状态。论文中默认使用α=1.5。当α超过2.5后，性能开始出现波动，α极大时模型表现甚至可能变差。这是因为延伸系数本质上是在做线性放大，放大倍数过大时线性外推的不稳定性就会暴露出来。所以实际使用时建议选1.0到2.0之间，不要设得太激进。
Q2：NExt中的"秩-1子空间"为什么能代表参数变化的主要信息？
A：参数差异矩阵经过奇异值分解（SVD）后，会得到一系列按重要性排序的"方向"。秩-1子空间对应其中最重要的那个方向，它的"能量比"（即这个方向的变化量占总变化量的比例）在LoRA训练过程中会持续升高，表明参数变化越来越集中在这一个方向上。用秩-1近似，参数量从O(n×m)压缩到O(n+m)，信息损失却很小，因此既高效又准确。
Q3：NExt适用于哪些AI训练场景，只能用于数学推理任务吗？
A：不局限于数学推理。论文在MMLU-Pro（14个学科的综合知识测试）和GPQA Diamond（研究生级别科学问答）上同样验证了NExt的有效性，均能在更少训练步数内达到传统方法的效果。此外，NExt也不依赖特定的强化学习算法，与GRPO、RLOO、REINFORCE++都能兼容，属于通用的训练加速模块，理论上可以应用于任何基于RLVR范式的LLM训练场景。

帐号		自动登录	找回密码
密码			立即注册