当前位置:首页 → 电脑软件 → 京东采销直播喊话拼多多 → 动漫❌c🐻黄扒衣服网站 v2.796.23.68875 安卓最新版
v4.320.616.915848 安卓免費版
v1.110.8891.567661 安卓最新版
v2.555.8618.350122 PC版
v9.453 安卓免費版
v1.668.9229 安卓漢化版
v2.956.5079 安卓漢化版
v8.169.8450.563935 IOS版
v9.696.2016.433910 IOS版
v2.191.6300.848546 安卓漢化版
v8.535.8005.906319 安卓漢化版
v8.966.4339 最新版
v9.949.5456.458152 PC版
v8.880 安卓免費版
v1.648.6263.98178 安卓最新版
v9.270.6012.756628 安卓最新版
v9.173.6326.899286 安卓漢化版
v3.680.1258 最新版
v1.568.7910.134779 安卓免費版
v2.713 PC版
v6.729.1351.322764 安卓漢化版
v7.833.1823 IOS版
v6.241.7154 安卓免費版
v2.558.5599.925614 PC版
v4.747.2967 安卓版
v7.123.3765.820708 安卓版
v5.971.2834.270693 安卓版
v6.97 最新版
v9.610.8327.941597 IOS版
v2.129.5259.593912 安卓免費版
v7.865 PC版
v3.998.2468.563733 IOS版
v4.268 IOS版
v9.261.1118.310191 IOS版
v8.87.8983 安卓最新版
v9.618 安卓版
v8.68.7817.551470 安卓免費版
v8.768.9860.767017 IOS版
v8.888.8592.956682 安卓漢化版
v8.757.3182.325781 安卓免費版
v3.642.4560 安卓漢化版
v4.5 PC版
v7.488.2914.429983 最新版
v9.626.7555.352699 PC版
v1.704.4071.550334 安卓漢化版
v3.570.8685 最新版
v6.251.6989 安卓免費版
v9.369.3837 安卓版
v3.178.664 PC版
v8.270.2470 IOS版
v4.972.4899.247882 安卓免費版
v4.163.5355.220004 安卓版
v4.800.3892.680672 PC版
v1.391.7701 安卓免費版
v4.575.7337.438002 安卓免費版
v2.317.9871 最新版
v9.316.9091.726785 最新版
v2.989.346.529876 安卓版
v1.697.2835 PC版
v1.878.9451 最新版
v1.459.680 安卓版
v3.618.3252 最新版
v9.962.484.879633 IOS版
v9.726 安卓漢化版
v7.228.949.312246 IOS版
v3.265.9529.830683 安卓版
v5.294.1713.407022 安卓漢化版
v7.198.2433.183727 最新版
v6.957.5007.670524 PC版
v3.442.9449.531254 安卓版
v1.612.3648.951894 安卓免費版
v2.182 安卓版
v4.947 PC版
v5.441 安卓版
v3.652.3614.60630 IOS版
v7.141.8184.121428 安卓免費版
v8.307.6060 安卓漢化版
v3.598 PC版
v7.865.5427 最新版
v6.394 安卓免費版
v3.745.3300.642477 安卓版
动漫❌c🐻黄扒衣服网站
大语言模型(LLM)真的会推理吗?业内对此争论不休。
这是因为,当前的 LLM 在面对复杂代码、多步逻辑和抽象任务时依然经常“翻车”,表现出逻辑跳跃、步骤混乱、答非所问等诸多问题。
靠人教?太慢。靠奖励?信号太弱。靠验证?数据太贵。如何兼顾推理能力、训练效率与通用性,已成为业内难题。
针对这些难题,清华大学计算机科学与技术系知识工程研究室(KEG)团队提出了一种统一的 LLM 强化学习(RL)新范式——ReST-RL。该方法通过将改进的 GRPO 算法与精心设计的由价值模型(VM)辅助的测试时解码方法相结合,在提升 LLM 推理能力的同时,也兼顾了效率、稳定性与可拓展性。
论文链接:
https://arxiv.org/abs/2508.19576
实验结果显示,在 APPS、BigCodeBench 和 HumanEval 等不同级别的知名编程基准上,ReST-RL 的性能优于其他强化训练基线(如原始 GRPO 和 ReST-DPO),以及解码和验证基线(如 PRM-BoN 和 ORM-MCTS)。
这表明,ReST-RL 在增强 LLM 策略的推理能力方面潜力巨大,且为 LLM 的强化学习路径提供了新思路。
现有RL方法难实现真正推理
越来越多的研究表明,RL 能够提升 LLM 的推理能力,这一方向也成为当前的研究热点。
其中一些方法采用在线 RL,即数据采样与模型更新同步进行,代表性方法为群体相对策略优化(GRPO);其它方法则主张通过离线采样与筛选机制获取训练数据,这一范式通常被称为自训练,其代表方法是强化自训练(ReST)。尽管训练机制不同,这两类方法均能有效提升 LLM 的推理能力。
奖励模型(RMs)因其在输出验证中的重要作用,正受到越来越多的关注。已有研究表明,对 LLM 最终输出进行验证的结果奖励模型(ORM)可以提升推理准确性。多种过程奖励模型(PRMs)也被用于为中间步骤提供反馈,其验证效果优于 ORM。
然而,这些方法仍存在不足。一方面,以 GRPO 为代表的在线 RL 算法,常因奖励信号差异微弱而导致训练效果不理想。尽管部分研究尝试通过设计逐步奖励或引入简单的动态采样机制缓解该问题,但这往往带来更高的计算成本与较差的泛化能力,也使 RL 算法更为复杂。另一方面,尽管 PRMs 在验证输出方面优于 ORMs,但其训练过程通常依赖高质量的标注数据。由于数据标注成本较高,PRM 的训练数据难以扩展,从而限制了其准确性与可靠性。
有研究提出通过蒙特卡洛模拟(Monte Carlo simulations)估计并收集过程奖励。但是,这些方法难以推广至更复杂的推理任务,其对结果匹配机制的依赖也限制了适用范围。
总体来看,现有方法难以在数据采集成本、泛化能力、强化效果与训练效率之间实现全面平衡。
ReST-RL:训练、推理双重优化
ReST-RL 为解决训练奖励差异和 PRM 准确性问题,提供了新的可能。该方法由两个主要部分组成,分别是 ReST-GRPO(基于群体相对策略优化的强化自训练方法) 和 VM-MCTS(基于价值模型的蒙特卡洛树搜索)。
图|ReST-RL 框架
ReST-GRPO 采用优化后的 ReST 算法执行 GRPO,从而提升策略在复杂推理任务中的能力。该方法利用策略本身对训练数据进行筛选与组合,有效缓解了 GRPO 奖励失效的问题,增强了策略生成可靠推理轨迹的能力。
LLM 的输出解答及其对应的奖励中蕴含着丰富信息,反映其在目标任务域中的优势与短板,这些信息可用于过滤掉无效的训练数据。
研究团队采用标准差评估奖励的多样性。对于其所有解答的奖励标准差低于预设阈值 σ₀ 的提示语,将其从训练集中剔除。训练过程聚焦于那些高奖励的解答轨迹,并最终利用其部分解状态构建新的训练数据。
与普通 GRPO 相比,ReST-GRPO 能够显著提升训练过程中的奖励方差。
图|策略训练过程中组奖励标准差的分布。
VM-MCTS 则用于 LLM 测试阶段解码。其中,价值模型(VM)的作用类似于 PRM,不仅提供验证信号,还能引导 LLM 策略探索更有潜力的推理路径。VM 的价值目标用于评估包含最后一步在内的整个部分状态,而非单一动作或步骤。它自然地反映了策略从当前局部状态到达高奖励终态zan的潜力,可在解码过程中为策略提供辅助。
在为 VM 收集训练数据时,他们采用 MCTS 方法,以在探索不同推理路径和利用高潜力中间状态之间取得平衡。一旦收集到足够的价值目标数据,即可训练 VM 去预测各类状态的价值。
使用该方法训练得到的 VM 能够准确预测当前策略下部分状态的预期奖励。该算法通过价值估计来决定应当探索和解码哪些路径,从而提高搜索的效率与准确性。
研究团队通过大量编码问题实验,验证了所提出 RL 范式及其各组成部分的有效性,证明 ReST-RL 不仅能够增强 LLM 策略的推理能力,同时在效率、成本和泛化性等方面实现了较好的平衡。
结果表明,ReST-RL 及其组件在性能上全面优于其他强化学习基线方法(如原始 GRPO 和 ReST-DPO),以及解码与验证基线方法(如 PRM-BoN 和 ORM-MCTS)。
在相同训练步数下进行测试对比表明,ReST-GRPO 相较于原始 GRPO 和 DAPO 拥有更高的训练效率。
在解码验证预算相同的条件下,VM-MCTS 及其 VM 在准确性方面,优于此前基于公开数据训练的 Math-Shepherd 风格 PRM 或 ORM。
图|训练效率与预算内验证能力的测试。
局限与未来方向
尽管各项实验证明了ReST-RL的有效性,但该方法仍存在一定的局限性。
例如,研究尚未在代码推理以外的任务(如数学推理和常识推理)中对其进行验证。虽然该方法框架并不局限于代码任务,但在其他场景下的应用可能需要重新设计合适的奖励机制和实验超参数。
另外,部分实验设置对最终结果的具体影响也尚未得到系统性分析。
研究团队还表示,价值模型在域外任务中的准确性仍缺乏充分研究,后续工作将进一步探索 ReST-RL 在更广泛任务中的泛化能力。
整理:小羊
如需转载或投稿,请直接在公众号内留言
智谱上线 Glm Coding Plan
20 元包月,「1/7 价格、3 倍用量」
畅享 Claude Code 编码体验
开发者用了都说好
欢迎体验~
相关版本
多平台下载
查看所有0条评论>网友评论