12389举报网站建设项目wordpress论坛社区主题-宁德市网站建设公司-Seo优化

12389举报网站建设项目,wordpress论坛社区主题,wordpress 新特性,网站建设浙江突破性框架TRAPO#xff1a;统一监督微调与强化学习的新范式#xff0c;显著提升大语言模型推理能力大语言模型的后训练方法正迎来重大突破#xff01;清华大学与蚂蚁集团联合提出的TRAPO框架通过创新性地统一SFT与RL训练#xff0c;在数学推理任务上实现了显著性能提升。…突破性框架TRAPO统一监督微调与强化学习的新范式显著提升大语言模型推理能力大语言模型的后训练方法正迎来重大突破清华大学与蚂蚁集团联合提出的TRAPO框架通过创新性地统一SFT与RL训练在数学推理任务上实现了显著性能提升。该框架解决了传统两阶段训练中的根本性矛盾通过Trust-Region SFT和自适应专家指导机制实现了更稳定、更高效的模型训练为推理增强型LLMs发展开辟了新道路。论文标题TRUST-REGION ADAPTIVE POLICY OPTIMIZATION来源arXiv:2512.17636 https://arxiv.org/abs/2512.17636PS: 整理了LLM、量化投资、机器学习方向的学习资料关注同名公众号「 AI极客熊」即刻免费解锁文章核心研究背景大语言模型的后训练特别是监督微调Supervised Fine-Tuning, SFT和强化学习Reinforcement Learning, RL技术在提升模型复杂推理能力方面发挥着重要作用。当前主流的LLM后训练流程采用两阶段方式先进行SFT让模型模仿精心策划的专家演示然后通过RL阶段的试错来精炼模型的推理技能。然而这种设计存在根本性障碍阻碍了SFT与RL的协同作用。SFT倾向于将训练模型锁定在模仿性和僵化的行为模式中这阻碍了RL阶段至关重要的有效探索同时SFT还容易导致训练模型的灾难性遗忘阻碍RL阶段利用预训练知识进行改进。这些不一致性提出了一个重要挑战如何在不损害模型探索能力和预训练知识的前提下将SFT的知识蒸馏优势有效融入RL训练中研究问题训练不一致性问题传统两阶段SFT-then-RL流程中SFT强制执行僵化模仿会抑制探索并导致遗忘限制了RL的改进潜力。分布混合效应标准SFT最小化前向KL散度表现出强烈的模式覆盖特性当在实例级别与RL交错时那些膨胀的模式会立即导致目标策略退化如重复或错误解码使RL远离有效探索。专家指导效率问题一刀切的前缀长度本质上效率低下在模型能够独立解决的问题上扼杀了有价值的探索而在更具挑战性的问题上提供不足的指导。主要贡献统一的训练框架引入TRAPOTrust-Region Adaptive Policy Optimization这是一个在实例级别结合SFT和RL的新型后训练框架。它具有TrSFT用于稳定知识内化和动态指导选择机制以平衡指导与探索。理论分析突破识别SFT前向KL的模式覆盖特性作为不稳定性来源理论上证明TrSFT将优化目标从SFT的模式覆盖转向反向KL的模式寻求行为确保RL的稳定更新。实验验证充分在五个数学推理基准上进行广泛实验证明TRAPO超越了传统SFT、RL和SFT-then-RL流程以及最近结合SFT和RL的最先进方法。方法论精要TRAPO框架概述TRAPO框架的核心思想是实现协同的边学边练范式将从离线专家轨迹学习与在线RL更新相结合。核心工作流程如下对于每个提示1从离线专家轨迹中选择的前缀作为起始上下文2目标策略从那里开始展开以完成推理3然后执行双重更新其中生成的完成用于标准RL更新而专家前缀用于直接策略优化以内化专家的推理技能。通过实证研究验证了在目标策略展开中引入专家轨迹前缀的好处。在MATH-500基准测试中为Qwen2.5-3B-Instruct提供来自DeepSeek-R1的前缀然后计算响应准确率并统计完成的后缀中两种关键推理行为的频率即回溯和反向链式推理。清楚地观察到更长的专家前缀稳步提高准确率并刺激高级推理行为的出现。Trust-Region SFT (TrSFT)针对内化专家推理技能的第一个挑战直接在专家前缀上结合标准SFT损失与模型生成展开的RL目标会导致严重的性能下降。为了揭示根本原因作者首先进行了SFT训练动态的试点研究。SFT训练动态分析标准SFT训练目标强制p θ T p_\theta^TpθT模仿专家策略p E p_EpE通过最小化来自专家策略的每个轨迹y ( y 1 , ⋯ , y n ) y (y_1, \cdots, y_n)y(y1,⋯,yn)的负对数似然NLLL S F T ( θ ) E x ∼ X [ E y ∼ p E ( ⋅ ∣ x ) [ − log ⁡ p θ T ( y ∣ x ) ] ] L_{SFT}(\theta) \mathbb{E}_{x \sim \mathcal{X}} \left[ \mathbb{E}_{y \sim p_E(\cdot|x)} \left[ -\log p_\theta^T(y|x) \right] \right]LSFT(θ)Ex∼X[Ey∼pE(⋅∣x)[−logpθT(y∣x)]]SFT目标等价于最小化累积令牌级前向KL散度。为了理解其训练动态作者进行了一个说明性实验训练一个双模式高斯混合模型GMM来模仿一个三模式专家GMM。这个过程揭示了分布混合现象目标策略为任一策略都不支持的空区域分配概率如图3(a)中的阴影区域。这对RL有害因为这些区域导致退化的输出如重复阻碍有效探索。TrSFT梯度裁剪为了减轻在线模型更新期间分布混合的负面影响提出了Trust-Region SFT (TrSFT)一个旨在自适应利用SFT更新的机制。核心思想是建立一个区域其中标准SFT损失的梯度可以被信任而在此区域之外需要干预以防止模型崩溃到解决方案空间的不良部分∇ θ L T r S F T α − 1 N ∑ i 1 N ∑ n 1 ∣ y i ∣ 1 max ⁡ ( p θ T ( y i n ∣ x i , y i n ) , α ) ∇ θ p θ T ( y i n ∣ x i , y i n ) \nabla_\theta L_{TrSFT}^\alpha -\frac{1}{N} \sum_{i1}^{N} \sum_{n1}^{|y_i|} \frac{1}{\max(p_\theta^T(y_i^n|x_i,y_{in}), \alpha)} \nabla_\theta p_\theta^T(y_i^n|x_i,y_{in})∇θLTrSFTα−N1∑i1N∑n1∣yi∣max(pθT(yin∣xi,yin),α)1∇θpθT(yin∣xi,yin)其中α ∈ [ 0 , 1 ] \alpha \in [0,1]α∈[0,1]是定义信任区域边界的超参数。该优化目标表现出几个理想特性信任区域内的安全知识灌输TrSFT通过基于目标策略自身信念定义动态信任区域来缓解分布混合。在此区域内它采用标准SFT目标积极模仿专家策略行为。在区域外常数权重1 / α 1/\alpha1/α显著抑制梯度从而减少大梯度更新对目标策略即时行为的破坏性影响。合理的优化端点作者提出了由Eq.(3)定义的梯度定义的优化问题并理论上推导了解决方案。TrSFT的最优解决方案通过修剪专家策略中的低概率区域p T ∗ ( c ) 0 p_T^*(c) 0pT∗(c)0和重新缩放主要模式p T ∗ ( c ) p E ( c ) / λ p_T^*(c) p_E(c)/\lambdapT∗(c)pE(c)/λ来对抗分布混合。这种双重行动有效地将目标从前向KL的模式覆盖转变为类似于反向KL的模式寻求迫使策略专注于专家的核心技能从而有利于RL的高回报展开。微组采样Micro-group Sampling为了优雅地解决指导选择的第二个挑战提出了微组采样它基于当前策略展开的观察回报自适应地分配专家前缀的指导从而最小化对专家前缀的不必要依赖并适应每个训练批次内提示难度的异质性。如图1所示在每个训练提示中TRAPO按顺序创建N个微组其中每个微组g i g_igi对于i 1 , ⋯ , N i 1, \cdots, Ni1,⋯,N由三个关键超参数指定前缀长度比例L i L_iLi、回报阈值t i t_iti和采样预算n i n_ini。对于微组g i g_igiTRAPO首先计算在前面微组中生成的所有样本的平均回报。如果平均回报小于阈值t i t_itiTRAPO向当前目标策略提供一个前缀其长度设置为完整专家轨迹的比例L i L_iLi然后从目标策略采样n i n_ini个完成。否则不提供专家前缀直接从目标策略获得n i n_ini个策略展开。设置0 L 1 L 2 ⋯ L N 1 0 L_1 \lt L_2 \lt \cdots \lt L_N 10L1L2⋯LN1。L 1 0 L_1 0L10确保在每个训练提示中TRAPO总是从无指导的自我探索RL开始而L N 1 L_N 1LN1允许目标策略在必要时访问来自专家的完整推理路径。因此L i L_iLi的递增水平确保只有在较短前缀被证明不足时才提供更丰富的指导。实验洞察实验设置训练细节主要训练数据集是OpenR1-Math-46k-8192包含由DeepSeek-R1为复杂数学问题生成的大量已验证推理轨迹。为了增强指导的多样性作者还为每个问题配对了从OpenR1-Math-200k中采样的另一个轨迹。遵循最近的工作使用Qwen2.5-Math-7B作为基础模型。为了进一步验证方法的通用性还在通用目的模型Qwen2.5-7B-Instruct上进行了评估。实施细节采用不带KL惩罚的Group Relative Policy Optimization (GRPO)算法进行RL。训练配置为128的批大小和5 × 1 0 − 6 5 \times 10^{-6}5×10−6的恒定学习率。自适应指导机制在总共8个组大小上运行这些组被划分为四个大小为{4, 2, 1, 1}的微组。这些微组对应相对专家前缀长度比例( L 1 , ⋯ , L 4 ) ( 0 , 0.2 , 0.5 , 1.0 ) (L_1, \cdots, L_4) (0, 0.2, 0.5, 1.0)(L1,⋯,L4)(0,0.2,0.5,1.0)并由回报阈值( t 1 , ⋯ , t 4 ) ( − 1 , 0.5 , 0.7 , 0.9 ) (t_1, \cdots, t_4) (-1, 0.5, 0.7, 0.9)(t1,⋯,t4)(−1,0.5,0.7,0.9)激活。阈值t 1 − 1 t_1 -1t1−1确保第一个微组总是没有指导。对于TrSFT目标Eq.(3)中的信任区域参数α \alphaα设置为0.1。评估基准和指标专注于数学推理任务同时在数学和通用领域基准上评估各种方法。具体来说数学基准包括AIME2024、AMC、Minerva、OlympiadBench和MATH-500。鉴于AIME2024和AMC的测试样本相对较少在这些基准上报告avg32其余三个使用pass1。对于通用领域推理基准在ARC-c和MMLU-Pro上报告pass1以检查推理能力的改进是否推广到其他推理任务。主要实验结果数学推理性能如表1所示TRAPO在五个数学推理基准上实现了56.6的平均分数优于所有基线。特别是TRAPO相对于SFT和GRPO分别产生了6.3和6.2的改进相对于SFT-then-RL基线获得了2.3的增益。这些结果验证了核心假设TRAPO有效地使模型既能够内化专家技能又能够利用指导进行卓越的探索从而更稳健地获得推理能力。通用领域推理性能在两个通用推理基准上TRAPO达到68.3的平均分数超过所有基线。相比之下SFT和SFT-then-RL在这些基准上表现出明显较低的分数表明TRAPO在利用外部指导的同时不会将模型限制在僵化的推理模式中相反它产生更强的泛化能力。训练动态图4展示了TRAPO与GRPO之间训练动态的比较分析揭示了方法的三个关键优势1TRAPO在整个训练过程中始终实现更高的回报并最终收敛到显著更高的最终回报水平。2生成长度曲线显示TRAPO在早期阶段迅速增加其输出长度表明快速内化了专家的扩展推理模式。相比之下GRPO难以产生更长的解决方案始终保持较短的输出长度。3虽然两种方法都显示策略熵的初始下降但它们的长期行为不同。TRAPO稳定在相对较高的熵水平。这归因于其保持动态平衡的能力它同时精炼自己的高概率推理路径同时对学习外部提供的、潜在低概率的专家指导保持开放。消融研究为了评估微组采样和TrSFT的贡献在Qwen2.5-Math-7B上进行了消融研究。结果表明仅微组采样即使没有明确的前缀学习也通过自适应确定前缀长度来增强推理和回报密度超越了GRPO。添加TrSFT进一步提高了性能与标准SFT损失降低性能或LUFFY的离线RL损失带来有限增益不同TrSFT有效地内化了专家前缀。测试时间扩展评估passkk个独立展开的成功率以更好地估计模型能力的上限因为最近的研究表明多次生成尝试比少数展开更准确地揭示推理潜力。图6展示了AIME2024基准上的passk性能从中得出两个关键见解1观察到基础模型Qwen2.5-Math-7B在用足够大的k评估时超过了GRPO训练的模型。这与之前的发现一致表明标准RL主要刺激模型从其现有知识空间中选择更好的解决方案但不会从根本上用新的问题解决技能扩展该空间。2TRAPO和基于SFT的方法都展示了在更大k下的强性能扩展表明它们拥有更丰富的底层解决方案空间。TRAPO的卓越性能突显了其成功有效地内化了来自专家轨迹的外部知识从而扩展了模型的内在能力。

12389举报网站建设项目wordpress论坛社区主题

凯里市建设局网站织梦医院网站开发

网站正在建设中界面设计碧桂园房地产最新消息

中国建设企业网站网站做的好的tkd

网站google搜索优化企业vi设计的基本要素

自己一个人做网站可以吗本地网站搭建时需要使用的软件是

网站空间500M川汇网站建设