当前位置：网硕互联帮助中心 > 服务器百科 > 正文

2025_NIPS_ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs

2026-02-23 分类：服务器百科阅读(124) 评论(0)

在这里插入图片描述

文章核心总结与创新点

主要内容

本文针对现有过程奖励模型（PRMs）难以评估大语言模型中间推理轨迹的问题，提出了轨迹感知的PRM——ReasonFlux-PRM。该模型通过步级和轨迹级双重监督，适配“轨迹-响应”格式的长链推理数据，可应用于离线高质量数据筛选、在线强化学习策略优化和测试时Best-of-N缩放三大场景。在AIME、MATH500等多个挑战性基准测试中，ReasonFlux-PRM（7B版本）表现优于Qwen2.5-Math-PRM-72B等强基线模型和人工精选数据，在监督微调、强化学习和测试时缩放场景分别实现12.1%、4.5%和6.3%的平均性能提升，同时还发布了适用于资源受限场景的1.5B轻量化版本。

创新点

轨迹感知奖励设计：首次将步级和轨迹级监督结合，步级奖励包含语义对齐、逻辑质量和上下文连贯性三个维度，轨迹级奖励通过模板引导评估推理策略的通用性。

多场景适配能力：同时支持离线数据筛选（为小模型微调筛选高质量轨迹-响应数据）、在线强化学习（为GRPO等算法提供细粒度奖励）和测试时缩放（通过奖励引导选择最优推理结果）。

数据效率与性能平衡：7B规模模型超越更大参数的现有PRM和人工精选数据，1.5B版本适配边缘部署，在降低计算成本的同时保持优异性能。

赞(0)

未经允许不得转载：网硕互联帮助中心 » 2025_NIPS_ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs

标签：人工智能语言模型

相关推荐

评论抢沙发

评论前必须登录！

立即登录注册