云计算百科
云计算领域专业知识百科平台

2025_NIPS_ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs

在这里插入图片描述

文章核心总结与创新点

主要内容

本文针对现有过程奖励模型(PRMs)难以评估大语言模型中间推理轨迹的问题,提出了轨迹感知的PRM——ReasonFlux-PRM。该模型通过步级和轨迹级双重监督,适配“轨迹-响应”格式的长链推理数据,可应用于离线高质量数据筛选、在线强化学习策略优化和测试时Best-of-N缩放三大场景。在AIME、MATH500等多个挑战性基准测试中,ReasonFlux-PRM(7B版本)表现优于Qwen2.5-Math-PRM-72B等强基线模型和人工精选数据,在监督微调、强化学习和测试时缩放场景分别实现12.1%、4.5%和6.3%的平均性能提升,同时还发布了适用于资源受限场景的1.5B轻量化版本。

创新点

  • 轨迹感知奖励设计:首次将步级和轨迹级监督结合,步级奖励包含语义对齐、逻辑质量和上下文连贯性三个维度,轨迹级奖励通过模板引导评估推理策略的通用性。
  • 多场景适配能力:同时支持离线数据筛选(为小模型微调筛选高质量轨迹-响应数据)、在线强化学习(为GRPO等算法提供细粒度奖励)和测试时缩放(通过奖励引导选择最优推理结果)。
  • 数据效率与性能平衡:7B规模模型超越更大参数的现有PRM和人工精选数据,1.5B版本适配边缘部署,在降低计算成本的同时保持优异性能。

  • 赞(0)
    未经允许不得转载:网硕互联帮助中心 » 2025_NIPS_ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs
    分享到: 更多 (0)

    评论 抢沙发

    评论前必须登录!