GRPO(Group Relative Policy Optimization)公式速览
文章浏览阅读145次。GRPO(Group Relative Policy Optimization)公式摘要: GRPO采用组内归一化优势计算,通过组内均值和...
文章浏览阅读145次。GRPO(Group Relative Policy Optimization)公式摘要: GRPO采用组内归一化优势计算,通过组内均值和...
文章浏览阅读22次。摘要:本文介绍了使用半精度模型(FP16/BF16)来优化深度学习模型内存占用的方法。通过PyTorch的torch_dtype参数可直接加...
文章浏览阅读129次。本文系统梳理了强化学习(RL)从基础理论到前沿算法的演进路径。首先介绍了RL核心概念,包括代理、环境、状态、动作等基础要素。重点分析了策略...
文章浏览阅读11次。强化学习在量化交易中的陷阱:从回测天堂到实盘地狱 强化学习(RL)策略在回测中表现优异却常在实际交易中惨败,根本原因在于四个关键陷阱:1)历...
文章浏览阅读121次。Sparrow是一个开源的移动机器人路径规划模拟器,重视模拟速度和轻量化,使用DDQN强化学习方法进行训练。本文在其基础上,增加了绘制训练...
文章浏览阅读870次,点赞12次,收藏18次。本文详细解释了在本地打开服务器端的tensorboard日志,并同时提供了本地打开tensorboard没用数据的...