网站上线要多久迅睿cms和帝国哪个好-宁德市网站建设公司-Seo优化

网站上线要多久,迅睿cms和帝国哪个好,网络公司企业网站模板,福州网站设计哪家好在 DeepSeek-R1 和 OpenAI o1 等模型通过强化学习#xff08;RL#xff09;展现出惊人的数学与逻辑推理能力后#xff0c;AI 社区陷入了一场激烈的辩论#xff1a;RL 真的让模型“学会”了预训练阶段未曾见过的推理能力吗#xff1f;还是说#xff0c;它仅仅是让模型更擅…在 DeepSeek-R1 和 OpenAI o1 等模型通过强化学习RL展现出惊人的数学与逻辑推理能力后AI 社区陷入了一场激烈的辩论RL 真的让模型“学会”了预训练阶段未曾见过的推理能力吗还是说它仅仅是让模型更擅长提取预训练中已经埋藏的知识目前的文献众说纷纭。一派认为 RL 只是“能力精炼器”无法突破预训练的上限另一派则通过实验证明 RL 能让模型解决预训练中从未见过的复杂问题。这种分歧的根源在于现代大模型的预训练数据数万亿 token是一个巨大的“黑盒”我们根本不知道模型在预训练阶段到底见过什么因此无法判断 RL 后的表现是“回忆”还是“创新”。论文On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models链接https://www.arxiv.org/abs/2512.07783卡内基梅隆大学CMU的研究团队带来的这篇论文就像是给这个混乱的辩论场带来了一把精准的手术刀。他们没有使用不可控的互联网数据而是构建了一个完全可控的合成数据“实验室”。在这个实验室里他们不仅解开了预训练、中期训练和 RL 之间复杂的纠缠关系还给出了一套关于“如何培养推理模型”的精确配方。如下图所示图解该图概括了论文的三大核心发现左图显示 RL 仅在任务难度略高于预训练范围时有效中图显示情境泛化依赖于预训练的微量接触长尾分布右图显示中期训练能显著提升计算效率。接下来我们将详细拆解这些发现...1. 实验方法打造一个“纯净的实验室”为了搞清楚因果关系研究团队必须摆脱真实数据的干扰建立一个受控环境。1.1 数据生成框架骨架与皮肤研究者基于GSM-Infinite框架生成数据。这个框架极其巧妙地将数学问题拆解为两个部分依赖图Dependency Graph这是问题的“骨架”或逻辑结构。例如A B CC * D E。通过控制图的节点数量运算步数记为可以精确控制问题的难度。情境模板Contextual Template这是问题的“皮肤”或故事背景。同样的逻辑骨架可以被渲染成“动物园里的狮子和老虎”情境 A也可以渲染成“学校里的老师和学生”情境 B 。如图所示左侧展示了控制逻辑复杂度的依赖图中间是不同的情境模板右侧则是生成的具体数学问题和推理步骤。这种设计实现了对“难度”和“内容”的完全解耦。1.2 两个维度的泛化论文定义了两种关键的推理能力指标外推性泛化Extrapolative Generalization深度上的扩展。如果模型在预训练时只见过 10 步以内的运算它能通过 RL 解决 20 步的运算吗情境性泛化Contextual Generalization广度上的迁移。如果模型在预训练时只做过“动物园”的题它能通过 RL 学会做逻辑结构相同但背景是“学校”的题吗1.3 严苛的评分标准过程验证为了防止模型“蒙对答案”这在 RL 中很常见研究者采用过程级验证Process-Verified Evaluation。只有当模型生成的推理步骤中间变量、运算逻辑与真实依赖图完全一致且最终答案正确时才算得分。2. 核心发现一RL 何时能提升推理能力外推性泛化很多研究者发现 RL 有时极有效有时却无效。本文揭示了其背后的规律RL 的有效性取决于任务难度与模型当前能力的相对关系。2.1 三个难度区间的表现研究者将预训练模型Base Model的能力范围设定在即 2 到 10 步运算。然后观察 RL 在不同难度数据上的表现分布内ID, op2-10RL 对准确率pass128几乎没有提升。因为模型已经学会了RL 只是让它更自信pass1 提升属于“锦上添花” 。能力边界OOD-edge, op11-14这是 RL 的黄金区间。这些任务比预训练稍微难一点模型虽然做不对pass1 低但偶尔能蒙对或做对一部分pass128 不为零。在这种数据上进行 RL模型能通过探索学会组合已有的原子操作实现真正的能力飞跃。极难任务OOD-hard, op15-20如果直接用这些太难的数据进行 RL模型会两眼一抹黑完全学不会。但在“能力边界”区间训练后的模型却能泛化解决这些极难任务。上图清晰展示了这一现象左图简单任务RL 曲线重合无明显提升中图边界任务RL 带来了巨大的性能增益右图极难任务显示只有在边界任务上训练过的 RL 模型绿色线才能解决极难问题。2.2 结论RL 产生真正推理收益需要满足两个条件预训练没学满留有提升空间。RL 数据必须位于模型的**“能力边界”Edge of Competence**——既不能太简单也不能难到模型完全无法理解。3. 核心发现二从“动物园”到“学校”的跨越情境性泛化如果模型只学过计算“狮子和老虎”它能通过 RL 学会计算“老师和学生”吗3.1 “种子”理论实验极其精彩研究者在预训练中放入了 99.9% 的“情境 A”如动物园通过控制“情境 B”如学校的混入比例0%, 0.1%, 1%, 10%观察 RL 后的效果。0% 接触如果预训练完全没见过情境 B无论 RL 怎么训练模型都无法学会情境 B。RL 无法“无中生有”地创造概念。0.1% 接触效果极差模型依然无法泛化。1% 接触奇点时刻只要预训练中有 1% 的数据涉及情境 B哪怕只是简单的原子操作RL 就能像浇水一样让这点微小的“种子”生根发芽最终让模型能够完美解决情境 B 中的复杂问题。请看图中的对比左侧两张图0%和0.1%预训练暴露显示 RL 后性能依然趴在底线而右侧两张图1%和10%预训练暴露显示 RL 迅速将性能拉升至 100%。这证明了“种子”的重要性。3.2 结论RL 不是创造者而是放大器。它需要预训练阶段提供最基础的“原语”primitives或“种子”。只要种子存在RL 就能将其组合、强化实现强大的跨情境泛化。4. 核心发现三被忽视的英雄——中期训练Mid-Training中期训练Mid-Training是指在预训练和 RL 之间使用高质量、特定领域数据进行的监督微调。这通常被忽视但本文证明它至关重要。4.1 计算预算的博弈为了公平研究者设定了固定的计算预算Compute Budget并研究如何分配给中期训练和 RL。这里引入了一个等效公式来统一衡量两者的计算成本其中是样本数是采样次数rollout是序列长度。这个公式告诉我们RL 的采样探索是非常昂贵的。4.2 实验结果混合策略最优Light-RL重中期训练轻 RL在固定预算下这种策略在**能力边界任务OOD-edge**上的 pass1一次通过率最高。这意味着中期训练能极好地固化基础能力提高稳定性。Heavy-RL轻中期训练重 RL这种策略在**极难任务OOD-hard**上表现最好。大量的 RL 探索对于攻克那些模型从未见过的深层逻辑至关重要。图中对比了不同配比策略。可以看到深蓝色的线Light RL在左侧图边界任务表现最好而棕色的线Heavy RL在右侧图极难任务表现最优。4.3 结论中期训练是预训练和 RL 之间的桥梁。它负责将模型调整到“RL 就绪”状态。最佳实践是保留一部分预算给中期训练以建立先验然后用 RL 进行大规模探索。5. 核心发现四拒绝“投机取巧”——过程奖励的作用RL 的一个经典问题是 Reward Hacking模型可能推理逻辑全是错的但恰好凑出了正确答案比如。5.1 奖励函数的设计为了解决这个问题论文引入了过程监督。奖励函数被设计为结果奖励答案对给1错给0这是稀疏的。过程验证奖励每一步推理对不对这是密集的。更严格的版本是只有当过程完全正确时才给结果奖励。5.2 效果验证实验表明引入过程奖励Process Rewards能显著减少逻辑错误如幻觉出不存在的节点并将外推性任务OOD-hard的 pass1 准确率提升了4-5%。柱状图清晰地展示了相比于纯结果奖励灰色柱混合了过程奖励的策略蓝色、黄色、绿色柱在所有难度任务上都取得了更高的准确率证明了过程监督能有效抑制奖励黑客行为。结论与展望这篇论文通过严格的控制变量实验终结了关于 RL 推理能力的许多猜测并为 AI 训练师提供了一份详尽的“操作指南”RL 的本质它不是魔法无法无中生有。它是一个强大的组合器和放大器。预训练的关键必须覆盖广泛的基础“原语”和长尾知识的“种子”至少 1% 覆盖率否则后续 RL 再努力也无法迁移。训练策略难度设计RL 数据应针对模型的“能力边界”Edge of Competence太难太易都没用。阶段配合不要跳过中期训练。用中期训练打基础用 RL 攻克难关。奖励设计尽可能使用过程奖励防止模型“学坏”。这项研究告诉我们打造强大的推理模型不仅需要大规模算力RL 探索更需要精细的数据工程预训练种子和科学的课程设计难度阶梯。

网站上线要多久迅睿cms和帝国哪个好

厦门酒店网站建设上海制作网站的网站

描述网站建设规范方法wordpress做管理系统

如何做哟个优惠券网站教做美食网站源码

个人网站设计构思爱网者

cms网站建站流程汕头百度网络推广

网站搜索要怎么做电子版简历在线制作