{"id":78332,"date":"2026-02-27T03:34:11","date_gmt":"2026-02-26T19:34:11","guid":{"rendered":"https:\/\/www.wsisp.com\/helps\/78332.html"},"modified":"2026-02-27T03:34:11","modified_gmt":"2026-02-26T19:34:11","slug":"%e5%9f%ba%e4%ba%8everl%e6%a1%86%e6%9e%b6%e7%9a%84gspo%e7%ae%97%e6%b3%95%e5%9c%a8atlas-800t-a2%e6%9c%8d%e5%8a%a1%e5%99%a8%e4%b8%8a%e5%ae%9e%e8%b7%b5","status":"publish","type":"post","link":"https:\/\/www.wsisp.com\/helps\/78332.html","title":{"rendered":"\u57fa\u4e8eVeRL\u6846\u67b6\u7684GSPO\u7b97\u6cd5\u5728Atlas 800T A2\u670d\u52a1\u5668\u4e0a\u5b9e\u8df5"},"content":{"rendered":"<p>\u4f5c\u8005&#xff1a;\u6607\u817e\u5b9e\u6218\u6d3e \u77e5\u8bc6\u5730\u56fe&#xff1a;\u5f3a\u5316\u5b66\u4e60\u77e5\u8bc6\u5730\u56fe<\/p>\n<h2>\u80cc\u666f\u4e0e\u610f\u4e49<\/h2>\n<p>\u672c\u7bc7\u6587\u7ae0\u4e3b\u8981\u57fa\u4e8eVeRL\u6846\u67b6\u4e0a\u63d0\u51fa\u7684GSPO\u7b97\u6cd5\u5728\u6607\u817eNPU\u4e0a\u8fdb\u884c\u5b9e\u8df5\u90e8\u7f72&#xff0c;\u5e76\u4e3a\u5927\u5bb6\u7b80\u5355\u4ecb\u7ecdGRPO\u7b97\u6cd5\u601d\u60f3\u4ee5\u53ca\u5176\u548cGSPO\u7b97\u6cd5\u7279\u6027\u5dee\u5f02\u3002<\/p>\n<h3>\u7b97\u6cd5\u539f\u7406<\/h3>\n<p>\u8bba\u6587\u5730\u5740 GRPO&#xff1a;https:\/\/arxiv.org\/abs\/2402.03300 GSPO&#xff1a;https:\/\/arxiv.org\/abs\/2507.18071<\/p>\n<h4>GRPO&#xff1a;\u7fa4\u7ec4\u76f8\u5bf9\u7b56\u7565\u4f18\u5316<\/h4>\n<p>\u7fa4\u7ec4\u76f8\u5bf9\u7b56\u7565\u4f18\u5316&#xff08;GRPO&#xff09;\u7684\u6838\u5fc3\u521b\u65b0\u5728\u4e8e\u6d88\u9664\u4e86\u5bf9\u8ba1\u7b97\u5bc6\u96c6\u578b\u4ef7\u503c\u6a21\u578b\u7684\u4f9d\u8d56&#xff0c;\u8be5\u7b97\u6cd5\u91c7\u7528\u4e86\u4e00\u79cd\u521b\u65b0\u7684\u7fa4\u7ec4\u751f\u6210\u548c\u76f8\u5bf9\u8bc4\u4f30\u673a\u5236&#xff1a;\u5bf9\u4e8e\u7ed9\u5b9a\u7684\u8f93\u5165\u63d0\u793a&#xff0c;\u7cfb\u7edf\u751f\u6210G\u4e2a\u4e0d\u540c\u7684\u54cd\u5e94\u6784\u6210\u4e00\u4e2a\u7fa4\u7ec4&#xff0c;\u968f\u540e\u5956\u52b1\u6a21\u578b\u5bf9\u7fa4\u7ec4\u5185\u6240\u6709\u54cd\u5e94\u8fdb\u884c\u8bc4\u5206\u3002\u901a\u8fc7\u8ba1\u7b97\u7fa4\u7ec4\u5185\u5206\u6570\u7684\u5747\u503c\u548c\u6807\u51c6\u5dee&#xff0c;\u7b97\u6cd5\u4e3a\u6bcf\u4e2a\u54cd\u5e94\u8ba1\u7b97\u76f8\u5bf9\u4f18\u52bf\u503c<span class=\"katex--inline\"><span class=\"katex\"><span class=\"katex-mathml\"><\/p>\n<p>          A<\/p>\n<p>          ^<\/p>\n<p>         i<\/p>\n<p>       \\\\hat{A}_i<\/p>\n<p>    <\/span><span class=\"katex-html\"><span class=\"base\"><span class=\"strut\" style=\"height: 1.0968em;vertical-align: -0.15em\"><\/span><span class=\"mord\"><span class=\"mord accent\"><span class=\"vlist-t\"><span class=\"vlist-r\"><span class=\"vlist\" style=\"height: 0.9468em\"><span class=\"\" style=\"top: -3em\"><span class=\"pstrut\" style=\"height: 3em\"><\/span><span class=\"mord mathnormal\">A<\/span><\/span><span class=\"\" style=\"top: -3.2523em\"><span class=\"pstrut\" style=\"height: 3em\"><\/span><span class=\"accent-body\" style=\"left: -0.1111em\"><span class=\"mord\">^<\/span><\/span><\/span><\/span><\/span><\/span><\/span><span class=\"msupsub\"><span class=\"vlist-t vlist-t2\"><span class=\"vlist-r\"><span class=\"vlist\" style=\"height: 0.3117em\"><span class=\"\" style=\"top: -2.55em;margin-left: 0em;margin-right: 0.05em\"><span class=\"pstrut\" style=\"height: 2.7em\"><\/span><span class=\"sizing reset-size6 size3 mtight\"><span class=\"mord mathnormal mtight\">i<\/span><\/span><\/span><\/span><span class=\"vlist-s\">\u200b<\/span><\/span><span class=\"vlist-r\"><span class=\"vlist\" style=\"height: 0.15em\"><span class=\"\"><\/span><\/span><\/span><\/span><\/span><\/span><\/span><\/span><\/span><\/span>\u3002\u4f18\u4e8e\u7fa4\u7ec4\u5e73\u5747\u6c34\u5e73\u7684\u54cd\u5e94\u83b7\u5f97\u6b63\u5411\u4f18\u52bf&#xff0c;\u53cd\u4e4b\u5219\u83b7\u5f97\u8d1f\u5411\u4f18\u52bf\u3002\u8fd9\u79cd\u8bbe\u8ba1\u663e\u8457\u964d\u4f4e\u4e86\u5f3a\u5316\u5b66\u4e60\u8bad\u7ec3\u7684\u5185\u5b58\u5360\u7528\u548c\u8ba1\u7b97\u590d\u6742\u5ea6&#xff0c;\u4f7f\u5927\u89c4\u6a21\u6a21\u578b\u7684\u8bad\u7ec3\u53d8\u5f97\u66f4\u52a0\u9ad8\u6548\u548c\u53ef\u884c&#xff0c;\u4f46\u5176\u5e95\u5c42\u5b9e\u73b0\u5b58\u5728\u4e00\u4e2a\u5173\u952e\u7684\u8bbe\u8ba1\u7f3a\u9677&#xff0c;\u8be5\u7f3a\u9677\u5728\u5927\u89c4\u6a21\u6a21\u578b\u8bad\u7ec3\u4e2d\u4f1a\u5bfc\u81f4\u4e25\u91cd\u7684\u7a33\u5b9a\u6027\u95ee\u9898\u3002<\/p>\n<p>\u95ee\u9898\u7684\u6839\u6e90\u5728\u4e8e\u5956\u52b1\u5206\u914d\u4e0e\u4f18\u5316\u66f4\u65b0\u4e4b\u95f4\u7684\u7c92\u5ea6\u4e0d\u5339\u914d&#xff1a;\u5956\u52b1\u503c<span class=\"katex--inline\"><span class=\"katex\"><span class=\"katex-mathml\"><\/p>\n<p>          A<\/p>\n<p>          ^<\/p>\n<p>         i<\/p>\n<p>       \\\\hat{A}_i<\/p>\n<p>    <\/span><span class=\"katex-html\"><span class=\"base\"><span class=\"strut\" style=\"height: 1.0968em;vertical-align: -0.15em\"><\/span><span class=\"mord\"><span class=\"mord accent\"><span class=\"vlist-t\"><span class=\"vlist-r\"><span class=\"vlist\" style=\"height: 0.9468em\"><span class=\"\" style=\"top: -3em\"><span class=\"pstrut\" style=\"height: 3em\"><\/span><span class=\"mord mathnormal\">A<\/span><\/span><span class=\"\" style=\"top: -3.2523em\"><span class=\"pstrut\" style=\"height: 3em\"><\/span><span class=\"accent-body\" style=\"left: -0.1111em\"><span class=\"mord\">^<\/span><\/span><\/span><\/span><\/span><\/span><\/span><span class=\"msupsub\"><span class=\"vlist-t vlist-t2\"><span class=\"vlist-r\"><span class=\"vlist\" style=\"height: 0.3117em\"><span class=\"\" style=\"top: -2.55em;margin-left: 0em;margin-right: 0.05em\"><span class=\"pstrut\" style=\"height: 2.7em\"><\/span><span class=\"sizing reset-size6 size3 mtight\"><span class=\"mord mathnormal mtight\">i<\/span><\/span><\/span><\/span><span class=\"vlist-s\">\u200b<\/span><\/span><span class=\"vlist-r\"><span class=\"vlist\" style=\"height: 0.15em\"><span class=\"\"><\/span><\/span><\/span><\/span><\/span><\/span><\/span><\/span><\/span><\/span>\u662f\u57fa\u4e8e\u5b8c\u6574\u5e8f\u5217\u8ba1\u7b97\u5f97\u51fa&#xff0c;\u800cGRPO\u7684\u4f18\u5316\u66f4\u65b0\u5374\u5728token\u7ea7\u522b\u6267\u884c\u3002\u4e3a\u4e86\u5c06\u5e8f\u5217\u7ea7\u5956\u52b1\u5e94\u7528\u4e8e\u6bcf\u4e2atoken&#xff0c;GRPO\u5f15\u5165\u4e86token\u7ea7\u522b\u7684\u91cd\u8981\u6027\u6743\u91cd<span class=\"katex--inline\"><span class=\"katex\"><span class=\"katex-mathml\"><\/p>\n<p>         w<\/p>\n<p>          i<\/p>\n<p>          ,<\/p>\n<p>          t<\/p>\n<p>        (<\/p>\n<p>        \u03b8<\/p>\n<p>        )<\/p>\n<p>       w_{i,t}(\\\\theta)<\/p>\n<p>    <\/span><span class=\"katex-html\"><span class=\"base\"><span class=\"strut\" style=\"height: 1.0361em;vertical-align: -0.2861em\"><\/span><span class=\"mord\"><span class=\"mord mathnormal\" style=\"margin-right: 0.0269em\">w<\/span><span class=\"msupsub\"><span class=\"vlist-t vlist-t2\"><span class=\"vlist-r\"><span class=\"vlist\" style=\"height: 0.3117em\"><span class=\"\" style=\"top: -2.55em;margin-left: -0.0269em;margin-right: 0.05em\"><span class=\"pstrut\" style=\"height: 2.7em\"><\/span><span class=\"sizing reset-size6 size3 mtight\"><span class=\"mord mtight\"><span class=\"mord mathnormal mtight\">i<\/span><span class=\"mpunct mtight\">,<\/span><span class=\"mord mathnormal mtight\">t<\/span><\/span><\/span><\/span><\/span><span class=\"vlist-s\">\u200b<\/span><\/span><span class=\"vlist-r\"><span class=\"vlist\" style=\"height: 0.2861em\"><span class=\"\"><\/span><\/span><\/span><\/span><\/span><\/span><span class=\"mopen\">(<\/span><span class=\"mord mathnormal\" style=\"margin-right: 0.0278em\">\u03b8<\/span><span class=\"mclose\">)<\/span><\/span><\/span><\/span><\/span>&#xff0c;\u6743\u91cd<span class=\"katex--inline\"><span class=\"katex\"><span class=\"katex-mathml\"><\/p>\n<p>         w<\/p>\n<p>          i<\/p>\n<p>          ,<\/p>\n<p>          t<\/p>\n<p>        (<\/p>\n<p>        \u03b8<\/p>\n<p>        )<\/p>\n<p>       w_{i,t}(\\\\theta)<\/p>\n<p>    <\/span><span class=\"katex-html\"><span class=\"base\"><span class=\"strut\" style=\"height: 1.0361em;vertical-align: -0.2861em\"><\/span><span class=\"mord\"><span class=\"mord mathnormal\" style=\"margin-right: 0.0269em\">w<\/span><span class=\"msupsub\"><span class=\"vlist-t vlist-t2\"><span class=\"vlist-r\"><span class=\"vlist\" style=\"height: 0.3117em\"><span class=\"\" style=\"top: -2.55em;margin-left: -0.0269em;margin-right: 0.05em\"><span class=\"pstrut\" style=\"height: 2.7em\"><\/span><span class=\"sizing reset-size6 size3 mtight\"><span class=\"mord mtight\"><span class=\"mord mathnormal mtight\">i<\/span><span class=\"mpunct mtight\">,<\/span><span class=\"mord mathnormal mtight\">t<\/span><\/span><\/span><\/span><\/span><span class=\"vlist-s\">\u200b<\/span><\/span><span class=\"vlist-r\"><span class=\"vlist\" style=\"height: 0.2861em\"><span class=\"\"><\/span><\/span><\/span><\/span><\/span><\/span><span class=\"mopen\">(<\/span><span class=\"mord mathnormal\" style=\"margin-right: 0.0278em\">\u03b8<\/span><span class=\"mclose\">)<\/span><\/span><\/span><\/span><\/span>\u8868\u793a\u5f53\u524d\u6a21\u578b\u751f\u6210 token \u7684\u6982\u7387 \u00f7 \u65e7\u6a21\u578b\u751f\u6210\u76f8\u540c token \u7684\u6982\u7387\u6bd4\u503c&#xff0c;\u5982\u4e0b\u56fe\u4e2d\u7684<span class=\"katex--inline\"><span class=\"katex\"><span class=\"katex-mathml\"><\/p>\n<p>         w<\/p>\n<p>          i<\/p>\n<p>          ,<\/p>\n<p>          t<\/p>\n<p>        (<\/p>\n<p>        \u03b8<\/p>\n<p>        )<\/p>\n<p>       w_{i,t}(\\\\theta)<\/p>\n<p>    <\/span><span class=\"katex-html\"><span class=\"base\"><span class=\"strut\" style=\"height: 1.0361em;vertical-align: -0.2861em\"><\/span><span class=\"mord\"><span class=\"mord mathnormal\" style=\"margin-right: 0.0269em\">w<\/span><span class=\"msupsub\"><span class=\"vlist-t vlist-t2\"><span class=\"vlist-r\"><span class=\"vlist\" style=\"height: 0.3117em\"><span class=\"\" style=\"top: -2.55em;margin-left: -0.0269em;margin-right: 0.05em\"><span class=\"pstrut\" style=\"height: 2.7em\"><\/span><span class=\"sizing reset-size6 size3 mtight\"><span class=\"mord mtight\"><span class=\"mord mathnormal mtight\">i<\/span><span class=\"mpunct mtight\">,<\/span><span class=\"mord mathnormal mtight\">t<\/span><\/span><\/span><\/span><\/span><span class=\"vlist-s\">\u200b<\/span><\/span><span class=\"vlist-r\"><span class=\"vlist\" style=\"height: 0.2861em\"><span class=\"\"><\/span><\/span><\/span><\/span><\/span><\/span><span class=\"mopen\">(<\/span><span class=\"mord mathnormal\" style=\"margin-right: 0.0278em\">\u03b8<\/span><span class=\"mclose\">)<\/span><\/span><\/span><\/span><\/span> <img decoding=\"async\" src=\"https:\/\/www.wsisp.com\/helps\/wp-content\/uploads\/2026\/02\/20260226193350-69a0a01ed9355.png\" alt=\"\u5728\u8fd9\u91cc\u63d2\u5165\u56fe\u7247\u63cf\u8ff0\" \/><\/p>\n<p>\u5e8f\u5217\u5185\u5404token\u7684\u91cd\u8981\u6027\u6743\u91cd\u53ef\u80fd\u51fa\u73b0\u663e\u8457\u5dee\u5f02&#xff0c;\u5bfc\u81f4\u5b66\u4e60\u4fe1\u53f7\u7684\u566a\u58f0\u5316\u548c\u4e0d\u4e00\u81f4\u6027\u3002\u968f\u7740\u8bad\u7ec3\u5e8f\u5217\u957f\u5ea6\u7684\u589e\u52a0&#xff0c;\u8fd9\u79cd\u566a\u58f0\u6548\u5e94\u7d2f\u79ef\u5e76\u53ef\u80fd\u89e6\u53d1\u6574\u4e2a\u8bad\u7ec3\u8fc7\u7a0b\u7684\u5931\u7a33&#xff0c;\u6700\u7ec8\u5bfc\u81f4\u6a21\u578b\u5d29\u6e83\u3002\u8be5\u95ee\u9898\u5728\u7a00\u758f\u4e13\u5bb6\u6df7\u5408&#xff08;Mixture-of-Experts, MoE&#xff09;\u6a21\u578b\u4e2d\u5c24\u4e3a\u4e25\u91cd&#xff0c;\u5728MoE\u67b6\u6784\u7684\u6a21\u578b\u8bad\u7ec3\u8fc7\u7a0b\u4e2d&#xff0c;\u7531\u4e8e\u6a21\u578b\u66f4\u65b0\u540e\u6bcf\u6b21\u6fc0\u6d3b\u7684\u4e13\u5bb6\u53ef\u80fd\u4f1a\u53d1\u751f\u53d8\u5316&#xff0c;off-policy\u504f\u5dee\u4f1a\u53d8\u5f97\u66f4\u4e25\u91cd\u3002\u56e0\u6b64&#xff0c;GRPO\u7684\u8fd9\u79cd\u91cd\u8981\u6027\u91c7\u6837\u7684\u65b9\u5f0f\u6709\u53ef\u80fd\u4f1a\u5bfc\u81f4\u66f4\u5927\u7684\u504f\u5dee&#xff0c;\u81f4\u4f7f\u8bad\u7ec3\u5d29\u6e83\u3002<\/p>\n<h4>GSPO&#xff1a;\u7fa4\u7ec4\u5e8f\u5217\u7b56\u7565\u4f18\u5316<\/h4>\n<p>\u4e0a\u8ff0\u95ee\u9898\u53ef\u4ee5\u53d1\u73b0&#xff0c;\u5176\u6839\u6e90\u5728\u4e8e\u4f18\u5316\u7c92\u5ea6\u548c\u5956\u52b1\u7c92\u5ea6\u4e0d\u5728\u540c\u4e00\u5355\u4f4d\u3002\u6240\u4ee5GSPO\u7b97\u6cd5\u63d0\u51fa\u5e8f\u5217\u7ea7\u522b\u7684\u91cd\u8981\u6027\u91c7\u6837&#xff0c;\u5e76\u5f15\u5165<span class=\"katex--inline\"><span class=\"katex\"><span class=\"katex-mathml\"><\/p>\n<p>         y<\/p>\n<p>         i<\/p>\n<p>       y_i<\/p>\n<p>    <\/span><span class=\"katex-html\"><span class=\"base\"><span class=\"strut\" style=\"height: 0.625em;vertical-align: -0.1944em\"><\/span><span class=\"mord\"><span class=\"mord mathnormal\" style=\"margin-right: 0.0359em\">y<\/span><span class=\"msupsub\"><span class=\"vlist-t vlist-t2\"><span class=\"vlist-r\"><span class=\"vlist\" style=\"height: 0.3117em\"><span class=\"\" style=\"top: -2.55em;margin-left: -0.0359em;margin-right: 0.05em\"><span class=\"pstrut\" style=\"height: 2.7em\"><\/span><span class=\"sizing reset-size6 size3 mtight\"><span class=\"mord mathnormal mtight\">i<\/span><\/span><\/span><\/span><span class=\"vlist-s\">\u200b<\/span><\/span><span class=\"vlist-r\"><span class=\"vlist\" style=\"height: 0.15em\"><span class=\"\"><\/span><\/span><\/span><\/span><\/span><\/span><\/span><\/span><\/span><\/span>\u4fdd\u8bc1\u5728\u6570\u503c\u4e0a\u4fdd\u6301\u7a33\u5b9a&#xff0c;\u65e0\u8bba\u5e8f\u5217\u957f\u5ea6\u4e3a10\u4e2atoken\u8fd8\u662f1000\u4e2atoken\u3002\u8be5\u7b97\u6cd5\u4f7f\u7528\u7a33\u5b9a\u7684\u5e8f\u5217\u7ea7\u91cd\u8981\u6027\u6bd4\u7387<span class=\"katex--inline\"><span class=\"katex\"><span class=\"katex-mathml\"><\/p>\n<p>         s<\/p>\n<p>         i<\/p>\n<p>        (<\/p>\n<p>        \u03b8<\/p>\n<p>        )<\/p>\n<p>       s_i(\\\\theta)<\/p>\n<p>    <\/span><span class=\"katex-html\"><span class=\"base\"><span class=\"strut\" style=\"height: 1em;vertical-align: -0.25em\"><\/span><span class=\"mord\"><span class=\"mord mathnormal\">s<\/span><span class=\"msupsub\"><span class=\"vlist-t vlist-t2\"><span class=\"vlist-r\"><span class=\"vlist\" style=\"height: 0.3117em\"><span class=\"\" style=\"top: -2.55em;margin-left: 0em;margin-right: 0.05em\"><span class=\"pstrut\" style=\"height: 2.7em\"><\/span><span class=\"sizing reset-size6 size3 mtight\"><span class=\"mord mathnormal mtight\">i<\/span><\/span><\/span><\/span><span class=\"vlist-s\">\u200b<\/span><\/span><span class=\"vlist-r\"><span class=\"vlist\" style=\"height: 0.15em\"><span class=\"\"><\/span><\/span><\/span><\/span><\/span><\/span><span class=\"mopen\">(<\/span><span class=\"mord mathnormal\" style=\"margin-right: 0.0278em\">\u03b8<\/span><span class=\"mclose\">)<\/span><\/span><\/span><\/span><\/span>\u66ff\u4ee3\u4e86\u566a\u58f0\u8f83\u5927\u7684token\u7ea7\u522b\u6743\u91cd&#xff0c;\u7ed9\u5b9a\u5e8f\u5217\u5185\u7684\u6240\u6709token\u63a5\u6536\u5b8c\u5168\u4e00\u81f4\u7684\u66f4\u65b0&#xff0c;\u8be5\u66f4\u65b0\u7531<span class=\"katex--inline\"><span class=\"katex\"><span class=\"katex-mathml\"><\/p>\n<p>         s<\/p>\n<p>         i<\/p>\n<p>        (<\/p>\n<p>        \u03b8<\/p>\n<p>        )<\/p>\n<p>          A<\/p>\n<p>          ^<\/p>\n<p>         i<\/p>\n<p>       s_i(\\\\theta)\\\\hat{A}_i<\/p>\n<p>    <\/span><span class=\"katex-html\"><span class=\"base\"><span class=\"strut\" style=\"height: 1.1968em;vertical-align: -0.25em\"><\/span><span class=\"mord\"><span class=\"mord mathnormal\">s<\/span><span class=\"msupsub\"><span class=\"vlist-t vlist-t2\"><span class=\"vlist-r\"><span class=\"vlist\" style=\"height: 0.3117em\"><span class=\"\" style=\"top: -2.55em;margin-left: 0em;margin-right: 0.05em\"><span class=\"pstrut\" style=\"height: 2.7em\"><\/span><span class=\"sizing reset-size6 size3 mtight\"><span class=\"mord mathnormal mtight\">i<\/span><\/span><\/span><\/span><span class=\"vlist-s\">\u200b<\/span><\/span><span class=\"vlist-r\"><span class=\"vlist\" style=\"height: 0.15em\"><span class=\"\"><\/span><\/span><\/span><\/span><\/span><\/span><span class=\"mopen\">(<\/span><span class=\"mord mathnormal\" style=\"margin-right: 0.0278em\">\u03b8<\/span><span class=\"mclose\">)<\/span><span class=\"mord\"><span class=\"mord accent\"><span class=\"vlist-t\"><span class=\"vlist-r\"><span class=\"vlist\" style=\"height: 0.9468em\"><span class=\"\" style=\"top: -3em\"><span class=\"pstrut\" style=\"height: 3em\"><\/span><span class=\"mord mathnormal\">A<\/span><\/span><span class=\"\" style=\"top: -3.2523em\"><span class=\"pstrut\" style=\"height: 3em\"><\/span><span class=\"accent-body\" style=\"left: -0.1111em\"><span class=\"mord\">^<\/span><\/span><\/span><\/span><\/span><\/span><\/span><span class=\"msupsub\"><span class=\"vlist-t vlist-t2\"><span class=\"vlist-r\"><span class=\"vlist\" style=\"height: 0.3117em\"><span class=\"\" style=\"top: -2.55em;margin-left: 0em;margin-right: 0.05em\"><span class=\"pstrut\" style=\"height: 2.7em\"><\/span><span class=\"sizing reset-size6 size3 mtight\"><span class=\"mord mathnormal mtight\">i<\/span><\/span><\/span><\/span><span class=\"vlist-s\">\u200b<\/span><\/span><span class=\"vlist-r\"><span class=\"vlist\" style=\"height: 0.15em\"><span class=\"\"><\/span><\/span><\/span><\/span><\/span><\/span><\/span><\/span><\/span><\/span>\u786e\u5b9a\u3002token\u7ea7\u522b\u7684\u4e0d\u4e00\u81f4\u53cd\u9988\u88ab\u6d88\u9664&#xff0c;\u53d6\u800c\u4ee3\u4e4b\u7684\u662f\u57fa\u4e8e\u5b8c\u6574\u5e8f\u5217\u5956\u52b1\u7684\u7edf\u4e00\u66f4\u65b0\u673a\u5236\u3002 <img decoding=\"async\" src=\"https:\/\/www.wsisp.com\/helps\/wp-content\/uploads\/2026\/02\/20260226193351-69a0a01fc78b4.png\" alt=\"\u5728\u8fd9\u91cc\u63d2\u5165\u56fe\u7247\u63cf\u8ff0\" \/><\/p>\n<p>\u9488\u5bf9\u591a\u8f6e\u573a\u666f&#xff0c;GSPO\u63d0\u4f9btoken-level\u7684\u53d8\u4f53&#xff0c;\u4ee5\u8fdb\u884c\u66f4\u7cbe\u7ec6\u7684\u5e94\u7528 <img decoding=\"async\" src=\"https:\/\/www.wsisp.com\/helps\/wp-content\/uploads\/2026\/02\/20260226193352-69a0a0204a0e5.png\" alt=\"\u5728\u8fd9\u91cc\u63d2\u5165\u56fe\u7247\u63cf\u8ff0\" \/> \u8bba\u6587\u4e2d\u5b9e\u9a8c\u6570\u636e\u53ca\u7b97\u6cd5\u8868\u660e&#xff0c;\u5bf9\u4e8eGRPO\u7b97\u6cd5\u6765\u8bf4&#xff0c;\u5728MoE\u6a21\u578b\u4e0a\u8fdb\u884c\u8bad\u7ec3&#xff0c;\u7531\u4e8e\u6a21\u578b\u66f4\u65b0\u540e\u6bcf\u6b21\u6fc0\u6d3b\u7684\u4e13\u5bb6\u53ef\u80fd\u4f1a\u53d1\u751f\u53d8\u5316&#xff0c;off-policy\u504f\u5dee\u4f1a\u53d8\u5f97\u66f4\u4e25\u91cd&#xff0c;\u800c\u8fd9\u79cd\u6df7\u5408\u4e13\u5bb6\u6fc0\u6d3b\u5bfc\u81f4\u7684\u6ce2\u52a8\u4f1a\u4e25\u91cd\u5f71\u54cd\u6a21\u578b\u6536\u655b\u3002\u5728\u56fa\u5b9a\u91c7\u6837\u548c\u8bad\u7ec3\u6fc0\u6d3b\u76f8\u540c\u7684\u4e13\u5bb6\u540e&#xff08;Routing Replay&#xff09;&#xff0c;\u8bad\u7ec3reward\u53ef\u4ee5\u6b63\u5e38\u4e0a\u6da8&#xff0c;\u4f46\u4f1a\u5f15\u5165\u989d\u5916\u7684\u5185\u5b58\u548c\u901a\u4fe1\u5f00\u9500&#xff0c;\u9650\u5236MOE\u7684\u5b9e\u9645\u5bb9\u91cf\u3002\u800cGSPO\u7528sequence-level\u7684clip\u8fdb\u884c\u4f18\u5316&#xff0c;\u5bf9\u7cbe\u5ea6\u5dee\u5f02\u7684\u5bb9\u5fcd\u5ea6\u8981\u66f4\u9ad8&#xff0c;\u4ece\u6839\u672c\u4e0a\u89e3\u51b3\u4e86MoE\u6a21\u578b\u4e2d\u7684\u4e13\u5bb6\u6fc0\u6d3b\u6ce2\u52a8\u95ee\u9898&#xff0c;\u7b80\u5316\u548c\u7a33\u5b9a\u4e86\u8bad\u7ec3\u8fc7\u7a0b&#xff0c;\u8bad\u7ec3\u6548\u679c\u4e5f\u66f4\u597d<\/p>\n<h3>\u7279\u6027\u9002\u914d\u5de5\u4f5c\u5206\u6790<\/h3>\n<h4>\u6574\u4f53\u7b97\u6cd5\u6d41\u7a0b<\/h4>\n<p>Verl\u7684GRPO\u6574\u4f53\u7b97\u6cd5\u6d41\u7a0b\u5982\u4e0b\u56fe\u6240\u793a&#xff0c;GSPO\u4e0e\u5176\u7c7b\u4f3c&#xff0c;\u5dee\u5f02\u70b9\u5728\u4e8e\u91cd\u8981\u6027\u91c7\u6837\u8ba1\u7b97\u548closs\u8ba1\u7b97\u6a21\u5757<\/p>\n<p><img decoding=\"async\" src=\"https:\/\/www.wsisp.com\/helps\/wp-content\/uploads\/2026\/02\/20260226193352-69a0a02083b33.png\" alt=\"\u5728\u8fd9\u91cc\u63d2\u5165\u56fe\u7247\u63cf\u8ff0\" \/><\/p>\n<h4>\u6a21\u5757\u5206\u6790<\/h4>\n<p>\u7b97\u6cd5pr: https:\/\/github.com\/volcengine\/verl\/pull\/2775<\/p>\n<p>\u57fa\u4e8everl\u4ee3\u7801\u5206\u6790&#xff0c;\u53ef\u4ee5\u53d1\u73b0\u5176\u91cd\u8981\u6027\u91c7\u6837\u8ba1\u7b97\u76f8\u5173\u4ee3\u7801\u4f4d\u7f6e\u4f4d\u4e8e&#xff1a;verl\/trainer\/ppo\/core_algos.py<\/p>\n<p><span class=\"token decorator annotation punctuation\">&#064;register_policy_loss<\/span><span class=\"token punctuation\">(<\/span><span class=\"token string\">&#034;gspo&#034;<\/span><span class=\"token punctuation\">)<\/span><br \/>\n<span class=\"token keyword\">def<\/span> <span class=\"token function\">compute_policy_loss_gspo<\/span><span class=\"token punctuation\">(<\/span><br \/>\n    old_log_prob<span class=\"token punctuation\">:<\/span> torch<span class=\"token punctuation\">.<\/span>Tensor<span class=\"token punctuation\">,<\/span><br \/>\n    log_prob<span class=\"token punctuation\">:<\/span> torch<span class=\"token punctuation\">.<\/span>Tensor<span class=\"token punctuation\">,<\/span><br \/>\n    advantages<span class=\"token punctuation\">:<\/span> torch<span class=\"token punctuation\">.<\/span>Tensor<span class=\"token punctuation\">,<\/span><br \/>\n    response_mask<span class=\"token punctuation\">:<\/span> torch<span class=\"token punctuation\">.<\/span>Tensor<span class=\"token punctuation\">,<\/span><br \/>\n    loss_agg_mode<span class=\"token punctuation\">:<\/span> <span class=\"token builtin\">str<\/span> <span class=\"token operator\">&#061;<\/span> <span class=\"token string\">&#034;seq-mean-token-mean&#034;<\/span><span class=\"token punctuation\">,<\/span><br \/>\n    config<span class=\"token punctuation\">:<\/span> Optional<span class=\"token punctuation\">[<\/span>ActorConfig<span class=\"token punctuation\">]<\/span> <span class=\"token operator\">&#061;<\/span> <span class=\"token boolean\">None<\/span><span class=\"token punctuation\">,<\/span><br \/>\n    rollout_is_weights<span class=\"token punctuation\">:<\/span> torch<span class=\"token punctuation\">.<\/span>Tensor <span class=\"token operator\">|<\/span> <span class=\"token boolean\">None<\/span> <span class=\"token operator\">&#061;<\/span> <span class=\"token boolean\">None<\/span><span class=\"token punctuation\">,<\/span><br \/>\n<span class=\"token punctuation\">)<\/span> <span class=\"token operator\">&#8211;<\/span><span class=\"token operator\">&gt;<\/span> <span class=\"token builtin\">tuple<\/span><span class=\"token punctuation\">[<\/span>torch<span class=\"token punctuation\">.<\/span>Tensor<span class=\"token punctuation\">,<\/span> <span class=\"token builtin\">dict<\/span><span class=\"token punctuation\">[<\/span><span class=\"token builtin\">str<\/span><span class=\"token punctuation\">,<\/span> Any<span class=\"token punctuation\">]<\/span><span class=\"token punctuation\">]<\/span><span class=\"token punctuation\">:<\/span><br \/>\n    <span class=\"token triple-quoted-string string\">&#034;&#034;&#034;<br \/>\n    Compute the clipped policy objective and related metrics for GSPO.<\/p>\n<p>    See https:\/\/arxiv.org\/pdf\/2507.18071 for more details.<\/p>\n<p>    Args:<br \/>\n        old_log_prob (torch.Tensor):<br \/>\n            Log-probabilities of actions under the old policy, shape (batch_size, response_length).<br \/>\n        log_prob (torch.Tensor):<br \/>\n            Log-probabilities of actions under the current policy, shape (batch_size, response_length).<br \/>\n        advantages (torch.Tensor):<br \/>\n            Advantage estimates for each action, shape (batch_size, response_length).<br \/>\n        response_mask (torch.Tensor):<br \/>\n            Mask indicating which tokens to include in the loss, shape (batch_size, response_length).<br \/>\n        loss_agg_mode (str, optional):<br \/>\n            Aggregation mode for &#096;agg_loss&#096;. For GSPO, it is recommended to use &#034;seq-mean-token-mean&#034;.<br \/>\n    &#034;&#034;&#034;<\/span><\/p>\n<p>    <span class=\"token keyword\">assert<\/span> config <span class=\"token keyword\">is<\/span> <span class=\"token keyword\">not<\/span> <span class=\"token boolean\">None<\/span><br \/>\n    <span class=\"token keyword\">assert<\/span> <span class=\"token builtin\">isinstance<\/span><span class=\"token punctuation\">(<\/span>config<span class=\"token punctuation\">,<\/span> ActorConfig<span class=\"token punctuation\">)<\/span><br \/>\n    clip_ratio_low <span class=\"token operator\">&#061;<\/span> config<span class=\"token punctuation\">.<\/span>clip_ratio_low <span class=\"token keyword\">if<\/span> config<span class=\"token punctuation\">.<\/span>clip_ratio_low <span class=\"token keyword\">is<\/span> <span class=\"token keyword\">not<\/span> <span class=\"token boolean\">None<\/span> <span class=\"token keyword\">else<\/span> config<span class=\"token punctuation\">.<\/span>clip_ratio<br \/>\n    clip_ratio_high <span class=\"token operator\">&#061;<\/span> config<span class=\"token punctuation\">.<\/span>clip_ratio_high <span class=\"token keyword\">if<\/span> config<span class=\"token punctuation\">.<\/span>clip_ratio_high <span class=\"token keyword\">is<\/span> <span class=\"token keyword\">not<\/span> <span class=\"token boolean\">None<\/span> <span class=\"token keyword\">else<\/span> config<span class=\"token punctuation\">.<\/span>clip_ratio<\/p>\n<p>    negative_approx_kl <span class=\"token operator\">&#061;<\/span> log_prob <span class=\"token operator\">&#8211;<\/span> old_log_prob<\/p>\n<p>    <span class=\"token comment\"># compute sequence-level importance ratio:<\/span><br \/>\n    <span class=\"token comment\"># si(\u03b8) &#061; (\u03c0_\u03b8(yi|x)\/\u03c0_\u03b8old(yi|x))^(1\/|yi|) &#061;<\/span><br \/>\n    <span class=\"token comment\"># exp [(1\/|y_i|) * \u03a3_t log(\u03c0_\u03b8(y_i,t|x,y_i,&lt;t)\/\u03c0_\u03b8old(y_i,t|x,y_i,&lt;t))]<\/span><br \/>\n    seq_lengths <span class=\"token operator\">&#061;<\/span> torch<span class=\"token punctuation\">.<\/span><span class=\"token builtin\">sum<\/span><span class=\"token punctuation\">(<\/span>response_mask<span class=\"token punctuation\">,<\/span> dim<span class=\"token operator\">&#061;<\/span><span class=\"token operator\">&#8211;<\/span><span class=\"token number\">1<\/span><span class=\"token punctuation\">)<\/span><span class=\"token punctuation\">.<\/span>clamp<span class=\"token punctuation\">(<\/span><span class=\"token builtin\">min<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">1<\/span><span class=\"token punctuation\">)<\/span><br \/>\n    negative_approx_kl_seq <span class=\"token operator\">&#061;<\/span> torch<span class=\"token punctuation\">.<\/span><span class=\"token builtin\">sum<\/span><span class=\"token punctuation\">(<\/span>negative_approx_kl <span class=\"token operator\">*<\/span> response_mask<span class=\"token punctuation\">,<\/span> dim<span class=\"token operator\">&#061;<\/span><span class=\"token operator\">&#8211;<\/span><span class=\"token number\">1<\/span><span class=\"token punctuation\">)<\/span> <span class=\"token operator\">\/<\/span> seq_lengths<\/p>\n<p>    <span class=\"token comment\"># Combined ratio at token level:<\/span><br \/>\n    <span class=\"token comment\"># s_i,t(\u03b8) &#061; sg[s_i(\u03b8)] \u00b7 \u03c0_\u03b8(y_i,t|x, y_i,&lt;t) \/ sg[\u03c0_\u03b8(y_i,t|x, y_i,&lt;t)]<\/span><br \/>\n    <span class=\"token comment\"># In log space: log(s_i,t(\u03b8)) &#061; sg[log(s_i(\u03b8))] &#043; log_prob &#8211; sg[log_prob]<\/span><br \/>\n    log_seq_importance_ratio <span class=\"token operator\">&#061;<\/span> log_prob <span class=\"token operator\">&#8211;<\/span> log_prob<span class=\"token punctuation\">.<\/span>detach<span class=\"token punctuation\">(<\/span><span class=\"token punctuation\">)<\/span> <span class=\"token operator\">&#043;<\/span> negative_approx_kl_seq<span class=\"token punctuation\">.<\/span>detach<span class=\"token punctuation\">(<\/span><span class=\"token punctuation\">)<\/span><span class=\"token punctuation\">.<\/span>unsqueeze<span class=\"token punctuation\">(<\/span><span class=\"token operator\">&#8211;<\/span><span class=\"token number\">1<\/span><span class=\"token punctuation\">)<\/span><br \/>\n    log_seq_importance_ratio <span class=\"token operator\">&#061;<\/span> torch<span class=\"token punctuation\">.<\/span>clamp<span class=\"token punctuation\">(<\/span>log_seq_importance_ratio<span class=\"token punctuation\">,<\/span> <span class=\"token builtin\">max<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">10.0<\/span><span class=\"token punctuation\">)<\/span>  <span class=\"token comment\"># clamp for numerical stability<\/span><\/p>\n<p>    <span class=\"token comment\"># finaly exp() to remove log<\/span><br \/>\n    seq_importance_ratio <span class=\"token operator\">&#061;<\/span> torch<span class=\"token punctuation\">.<\/span>exp<span class=\"token punctuation\">(<\/span>log_seq_importance_ratio<span class=\"token punctuation\">)<\/span><\/p>\n<p>    pg_losses1 <span class=\"token operator\">&#061;<\/span> <span class=\"token operator\">&#8211;<\/span>advantages <span class=\"token operator\">*<\/span> seq_importance_ratio<br \/>\n    pg_losses2 <span class=\"token operator\">&#061;<\/span> <span class=\"token operator\">&#8211;<\/span>advantages <span class=\"token operator\">*<\/span> torch<span class=\"token punctuation\">.<\/span>clamp<span class=\"token punctuation\">(<\/span>seq_importance_ratio<span class=\"token punctuation\">,<\/span> <span class=\"token number\">1<\/span> <span class=\"token operator\">&#8211;<\/span> clip_ratio_low<span class=\"token punctuation\">,<\/span> <span class=\"token number\">1<\/span> <span class=\"token operator\">&#043;<\/span> clip_ratio_high<span class=\"token punctuation\">)<\/span><br \/>\n    pg_losses <span class=\"token operator\">&#061;<\/span> torch<span class=\"token punctuation\">.<\/span>maximum<span class=\"token punctuation\">(<\/span>pg_losses1<span class=\"token punctuation\">,<\/span> pg_losses2<span class=\"token punctuation\">)<\/span><\/p>\n<p>    <span class=\"token comment\"># Apply rollout correction weights if provided<\/span><br \/>\n    <span class=\"token keyword\">if<\/span> rollout_is_weights <span class=\"token keyword\">is<\/span> <span class=\"token keyword\">not<\/span> <span class=\"token boolean\">None<\/span><span class=\"token punctuation\">:<\/span><br \/>\n        pg_losses <span class=\"token operator\">&#061;<\/span> pg_losses <span class=\"token operator\">*<\/span> rollout_is_weights<\/p>\n<p>    <span class=\"token comment\"># for GSPO, we need to aggregate the loss at the sequence level (seq-mean-token-mean)<\/span><br \/>\n    pg_loss <span class=\"token operator\">&#061;<\/span> agg_loss<span class=\"token punctuation\">(<\/span><br \/>\n        loss_mat<span class=\"token operator\">&#061;<\/span>pg_losses<span class=\"token punctuation\">,<\/span> loss_mask<span class=\"token operator\">&#061;<\/span>response_mask<span class=\"token punctuation\">,<\/span> loss_agg_mode<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;seq-mean-token-mean&#034;<\/span><span class=\"token punctuation\">,<\/span> <span class=\"token operator\">**<\/span>config<span class=\"token punctuation\">.<\/span>global_batch_info<br \/>\n    <span class=\"token punctuation\">)<\/span><\/p>\n<p>    <span class=\"token comment\"># For compatibility, return zero for pg_clipfrac_lower (not used in standard GSPO)<\/span><br \/>\n    pg_clipfrac <span class=\"token operator\">&#061;<\/span> verl_F<span class=\"token punctuation\">.<\/span>masked_mean<span class=\"token punctuation\">(<\/span>torch<span class=\"token punctuation\">.<\/span>gt<span class=\"token punctuation\">(<\/span>pg_losses2<span class=\"token punctuation\">,<\/span> pg_losses1<span class=\"token punctuation\">)<\/span><span class=\"token punctuation\">.<\/span><span class=\"token builtin\">float<\/span><span class=\"token punctuation\">(<\/span><span class=\"token punctuation\">)<\/span><span class=\"token punctuation\">,<\/span> response_mask<span class=\"token punctuation\">)<\/span><br \/>\n    pg_clipfrac_lower <span class=\"token operator\">&#061;<\/span> torch<span class=\"token punctuation\">.<\/span>tensor<span class=\"token punctuation\">(<\/span><span class=\"token number\">0.0<\/span><span class=\"token punctuation\">,<\/span> device<span class=\"token operator\">&#061;<\/span>pg_loss<span class=\"token punctuation\">.<\/span>device<span class=\"token punctuation\">)<\/span><\/p>\n<p>    ppo_kl <span class=\"token operator\">&#061;<\/span> verl_F<span class=\"token punctuation\">.<\/span>masked_mean<span class=\"token punctuation\">(<\/span><span class=\"token operator\">&#8211;<\/span>negative_approx_kl<span class=\"token punctuation\">,<\/span> response_mask<span class=\"token punctuation\">)<\/span><br \/>\n    pg_metrics <span class=\"token operator\">&#061;<\/span> <span class=\"token punctuation\">{<\/span><br \/>\n        <span class=\"token string\">&#034;actor\/pg_clipfrac&#034;<\/span><span class=\"token punctuation\">:<\/span> pg_clipfrac<span class=\"token punctuation\">.<\/span>detach<span class=\"token punctuation\">(<\/span><span class=\"token punctuation\">)<\/span><span class=\"token punctuation\">.<\/span>item<span class=\"token punctuation\">(<\/span><span class=\"token punctuation\">)<\/span><span class=\"token punctuation\">,<\/span><br \/>\n        <span class=\"token string\">&#034;actor\/ppo_kl&#034;<\/span><span class=\"token punctuation\">:<\/span> ppo_kl<span class=\"token punctuation\">.<\/span>detach<span class=\"token punctuation\">(<\/span><span class=\"token punctuation\">)<\/span><span class=\"token punctuation\">.<\/span>item<span class=\"token punctuation\">(<\/span><span class=\"token punctuation\">)<\/span><span class=\"token punctuation\">,<\/span><br \/>\n        <span class=\"token string\">&#034;actor\/pg_clipfrac_lower&#034;<\/span><span class=\"token punctuation\">:<\/span> pg_clipfrac_lower<span class=\"token punctuation\">.<\/span>detach<span class=\"token punctuation\">(<\/span><span class=\"token punctuation\">)<\/span><span class=\"token punctuation\">.<\/span>item<span class=\"token punctuation\">(<\/span><span class=\"token punctuation\">)<\/span><span class=\"token punctuation\">,<\/span><br \/>\n    <span class=\"token punctuation\">}<\/span><br \/>\n    <span class=\"token keyword\">return<\/span> pg_loss<span class=\"token punctuation\">,<\/span> pg_metrics<\/p>\n<p>GRPO\u57fa\u4e8etoken\u7ea7\u522b\u8ba1\u7b97\u91cd\u8981\u6027ratio,GSPO\u57fa\u4e8esequence\u7ea7\u522b\u8ba1\u7b97\u91cd\u8981\u6027ratio&#xff0c;\u76f8\u5173\u4ee3\u7801\u5dee\u5f02\u5982\u4e0b\u56fe\u6240\u793a<\/p>\n<p><img decoding=\"async\" src=\"https:\/\/www.wsisp.com\/helps\/wp-content\/uploads\/2026\/02\/20260226193352-69a0a020ef50e.png\" alt=\"\u5728\u8fd9\u91cc\u63d2\u5165\u56fe\u7247\u63cf\u8ff0\" \/><\/p>\n<h4>\u7ec4\u4ef6\u5206\u6790<\/h4>\n<p>\u80cc\u666f&#xff1a;GRPO\u5df2\u5728NPU\u652f\u6301<\/p>\n<p>\u89c2\u6d4b\u73b0\u6709GRPO\u548cGSPO\u7684\u4ee3\u7801\u5dee\u5f02\u5206\u6790&#xff0c;\u4ec5\u6d89\u53ca\u5e38\u89c4torch\u7f16\u7801&#xff0c;\u4e0d\u6d89\u53ca\u5176\u4f59\u7ec4\u4ef6&#xff0c;\u4e0d\u6d89\u53caNPU\u9002\u914d\u5de5\u4f5c<\/p>\n<h2>\u8c03\u8bd5\u7528\u4f8b<\/h2>\n<p>\u8c03\u8bd5\u76ee\u6807<\/p>\n<p>\u914d\u7f6eGSPO\u76f8\u5173\u53c2\u6570&#xff0c;\u62c9\u8d77\u8bad\u7ec3&#xff0c;reward\u66f2\u7ebf\u6b63\u5e38\u4e0a\u5347<\/p>\n<p>\u57fa\u4e8eGRPO\u811a\u672c&#xff0c;\u53c2\u6570\u4f7f\u80fd<\/p>\n<p>loss_mode<span class=\"token operator\">&#061;<\/span>gspo<br \/>\nloss_agg_mode<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;seq-mean-token-mean&#034;<\/span><br \/>\nactor_rollout_ref<span class=\"token punctuation\">.<\/span>actor<span class=\"token punctuation\">.<\/span>policy_loss<span class=\"token punctuation\">.<\/span>loss_mode<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>loss_mode<span class=\"token punctuation\">}<\/span> \\\\<br \/>\nactor_rollout_ref<span class=\"token punctuation\">.<\/span>actor<span class=\"token punctuation\">.<\/span>loss_agg_mode<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>loss_agg_mode<span class=\"token punctuation\">}<\/span> \\\\<\/p>\n<p>\u8c03\u8bd5\u7528\u4f8b1&#xff1a;Qwen25-3B<\/p>\n<p>\u7a20\u5bc6\u6a21\u578b\u8c03\u8bd5FSDP\u540e\u7aef&#xff0c;\u4ee5\u5b98\u65b9\u811a\u672c\u4e3a\u51c6&#xff0c;\u89c2\u6d4breward\u66f2\u7ebf\u662f\u5426\u4e0a\u5347<\/p>\n<p>\u8c03\u8bd5\u7528\u4f8b2&#xff1a;Qwen3-30B-A3B<\/p>\n<p>MOE\u6a21\u578b\u8c03\u8bd5Megatron\u540e\u7aef&#xff0c;\u89c2\u6d4bGRPO\u548cGSPO\u4e24\u79cd\u7b97\u6cd5\u7684reward\u66f2\u7ebf<\/p>\n<h2>\u8c03\u8bd5\u5b9e\u8df5<\/h2>\n<h3>\u8c03\u8bd5\u73af\u5883<\/h3>\n<table>\n<tr>\u914d\u7f6e\u9879\u7248\u672c\u4fe1\u606f<\/tr>\n<tbody>\n<tr>\n<td>AI\u670d\u52a1\u5668<\/td>\n<td>Atlas 800T A2 64G<\/td>\n<\/tr>\n<tr>\n<td>\u9a71\u52a8\u3001\u56fa\u4ef6<\/td>\n<td>24.1.0.3<\/td>\n<\/tr>\n<tr>\n<td>Python<\/td>\n<td>3.10.12<\/td>\n<\/tr>\n<tr>\n<td>CANN<\/td>\n<td>8.2.RC2<\/td>\n<\/tr>\n<tr>\n<td>torch<\/td>\n<td>2.7.1<\/td>\n<\/tr>\n<tr>\n<td>torch_npu<\/td>\n<td>2.7.1<\/td>\n<\/tr>\n<tr>\n<td>transformer<\/td>\n<td>4.53.3<\/td>\n<\/tr>\n<tr>\n<td>vllm<\/td>\n<td>0.10.0<\/td>\n<\/tr>\n<tr>\n<td>vllm-ascend<\/td>\n<td>0.10.0rc1<\/td>\n<\/tr>\n<tr>\n<td>verl<\/td>\n<td>0.7.0.dev0<\/td>\n<\/tr>\n<tr>\n<td>Megatron-core<\/td>\n<td>0.12.1<\/td>\n<\/tr>\n<tr>\n<td>MindSpeed<\/td>\n<td>2.2.0_core_r0.12.1<\/td>\n<\/tr>\n<tr>\n<td>Mbridge<\/td>\n<td>0.13.1<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<h3>\u8c03\u8bd5\u7528\u4f8b1&#xff1a;Qwen25-3B<\/h3>\n<h4>\u8c03\u8bd5\u811a\u672c<\/h4>\n<p><span class=\"token builtin class-name\">set<\/span> -x<br \/>\n<span class=\"token function\">pkill<\/span> -9 python<br \/>\n<span class=\"token function\">ps<\/span> -ef <span class=\"token operator\">|<\/span> <span class=\"token function\">grep<\/span> <span class=\"token string\">&#034;python&#034;<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">grep<\/span> -v <span class=\"token function\">grep<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">awk<\/span> <span class=\"token string\">&#039;{print $2}&#039;<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">xargs<\/span> -t -i <span class=\"token function\">kill<\/span> -9 <span class=\"token punctuation\">{<\/span><span class=\"token punctuation\">}<\/span><br \/>\nray stop &#8211;force<br \/>\n<span class=\"token function\">pkill<\/span> -9 python<br \/>\n<span class=\"token function\">pkill<\/span> -9 torchrun<br \/>\n<span class=\"token function\">ps<\/span> -ef <span class=\"token operator\">|<\/span> <span class=\"token function\">grep<\/span> <span class=\"token string\">&#034;defaunct&#034;<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">grep<\/span> python <span class=\"token operator\">|<\/span><span class=\"token function\">awk<\/span> <span class=\"token string\">&#039;{print $3}&#039;<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">xargs<\/span> -t -i <span class=\"token function\">kill<\/span> -9 <span class=\"token punctuation\">{<\/span><span class=\"token punctuation\">}<\/span><br \/>\n<span class=\"token function\">ps<\/span> -ef <span class=\"token operator\">|<\/span> <span class=\"token function\">grep<\/span> <span class=\"token string\">&#034;defaunct&#034;<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">grep<\/span> torchrun <span class=\"token operator\">|<\/span><span class=\"token function\">awk<\/span> <span class=\"token string\">&#039;{print $3}&#039;<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">xargs<\/span> -t -i <span class=\"token function\">kill<\/span> -9 <span class=\"token punctuation\">{<\/span><span class=\"token punctuation\">}<\/span><br \/>\n<span class=\"token function\">ps<\/span> -ef <span class=\"token operator\">|<\/span> <span class=\"token function\">grep<\/span> -i python <span class=\"token operator\">|<\/span><span class=\"token function\">grep<\/span> -i <span class=\"token punctuation\">[<\/span>name<span class=\"token punctuation\">]<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">grep<\/span> -v <span class=\"token function\">grep<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">awk<\/span> <span class=\"token string\">&#039;{print $2}&#039;<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">xargs<\/span> -t -I <span class=\"token punctuation\">{<\/span><span class=\"token punctuation\">}<\/span> <span class=\"token function\">kill<\/span> -9 <span class=\"token punctuation\">{<\/span><span class=\"token punctuation\">}<\/span><br \/>\n<span class=\"token function\">ps<\/span> -ef <span class=\"token operator\">|<\/span> <span class=\"token function\">grep<\/span> -i torchrun <span class=\"token operator\">|<\/span><span class=\"token function\">grep<\/span> -i <span class=\"token punctuation\">[<\/span>name<span class=\"token punctuation\">]<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">grep<\/span> -v <span class=\"token function\">grep<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">awk<\/span> <span class=\"token string\">&#039;{print $2}&#039;<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">xargs<\/span> -t -I <span class=\"token punctuation\">{<\/span><span class=\"token punctuation\">}<\/span> <span class=\"token function\">kill<\/span> -9 <span class=\"token punctuation\">{<\/span><span class=\"token punctuation\">}<\/span><br \/>\n<span class=\"token function\">ps<\/span> -ef <span class=\"token operator\">|<\/span> <span class=\"token function\">grep<\/span> <span class=\"token string\">&#034;python&#034;<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">grep<\/span> -v <span class=\"token function\">grep<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">awk<\/span> <span class=\"token string\">&#039;{print $2}&#039;<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">xargs<\/span> -t -i <span class=\"token function\">kill<\/span> -9 <span class=\"token punctuation\">{<\/span><span class=\"token punctuation\">}<\/span><br \/>\n<span class=\"token comment\"># Set how many GPUs we actually have on this node.<\/span><br \/>\n<span class=\"token builtin class-name\">export<\/span> <span class=\"token assign-left variable\">GPUS_PER_NODE<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">8<\/span><br \/>\n<span class=\"token builtin class-name\">export<\/span> <span class=\"token assign-left variable\">NNODES<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">1<\/span><br \/>\n<span class=\"token builtin class-name\">echo<\/span> <span class=\"token string\">&#034;Using <span class=\"token variable\">$NNODES<\/span> nodes for training&#8230;&#034;<\/span><br \/>\n<span class=\"token comment\"># &#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;- Setup xp params &#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;<\/span><br \/>\n<span class=\"token assign-left variable\">project_name<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#039;RL-GSPO&#039;<\/span><br \/>\n<span class=\"token assign-left variable\">adv_estimator<\/span><span class=\"token operator\">&#061;<\/span>grpo<br \/>\n<span class=\"token assign-left variable\">loss_mode<\/span><span class=\"token operator\">&#061;<\/span>gspo<br \/>\n<span class=\"token assign-left variable\">loss_agg_mode<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;seq-mean-token-mean&#034;<\/span><br \/>\n<span class=\"token assign-left variable\">MODEL_PATH<\/span><span class=\"token operator\">&#061;<\/span>XX\/Qwen25-3B-Instruct<br \/>\n<span class=\"token assign-left variable\">offload<\/span><span class=\"token operator\">&#061;<\/span>false <span class=\"token comment\"># it&#039;s a small model, offloading will just slow-down training<\/span><br \/>\n<span class=\"token assign-left variable\">rollout_engine<\/span><span class=\"token operator\">&#061;<\/span>vllm<br \/>\n<span class=\"token assign-left variable\">rollout_mode<\/span><span class=\"token operator\">&#061;<\/span>sync <span class=\"token comment\"># can be async to speedup large scale xps<\/span><br \/>\n<span class=\"token assign-left variable\">gpu_memory_utilization<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">0.6<\/span><br \/>\n<span class=\"token assign-left variable\">reward_manager<\/span><span class=\"token operator\">&#061;<\/span>dapo<br \/>\n<span class=\"token assign-left variable\">adv_estimator<\/span><span class=\"token operator\">&#061;<\/span>grpo<br \/>\n<span class=\"token assign-left variable\">shuffle_dataset<\/span><span class=\"token operator\">&#061;<\/span>true<br \/>\n<span class=\"token assign-left variable\">first_time_dataset_prep<\/span><span class=\"token operator\">&#061;<\/span>true <span class=\"token comment\"># prepare dataset<\/span><br \/>\n<span class=\"token assign-left variable\">test_freq<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">10<\/span><br \/>\n<span class=\"token assign-left variable\">save_freq<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">10<\/span><br \/>\n<span class=\"token assign-left variable\">total_epochs<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">10<\/span><br \/>\n<span class=\"token assign-left variable\">total_training_steps<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">500<\/span><br \/>\n<span class=\"token assign-left variable\">val_before_train<\/span><span class=\"token operator\">&#061;<\/span>false<br \/>\n<span class=\"token assign-left variable\">use_kl_in_reward<\/span><span class=\"token operator\">&#061;<\/span>false<br \/>\n<span class=\"token assign-left variable\">kl_coef<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">0.0<\/span><br \/>\n<span class=\"token assign-left variable\">use_kl_loss<\/span><span class=\"token operator\">&#061;<\/span>false<br \/>\n<span class=\"token assign-left variable\">kl_loss_coef<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">0.0<\/span><br \/>\n<span class=\"token assign-left variable\">clip_ratio_low<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">0.0003<\/span> <span class=\"token comment\"># as recommended by the paper, see Sec. 5.1<\/span><br \/>\n<span class=\"token assign-left variable\">clip_ratio_high<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">0.0004<\/span> <span class=\"token comment\"># as recommended by the paper, see Sec. 5.1<\/span><br \/>\n<span class=\"token assign-left variable\">train_batch_size<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">512<\/span><br \/>\n<span class=\"token assign-left variable\">ppo_mini_batch_size<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">128<\/span> <span class=\"token comment\"># maintain 4 mini-batches as recommended by the paper, see Sec. 5.1<\/span><br \/>\n<span class=\"token assign-left variable\">ppo_micro_batch_size_per_gpu<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">8<\/span> <span class=\"token comment\"># setup depending on your GPU memory<\/span><br \/>\n<span class=\"token assign-left variable\">n_resp_per_prompt<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">16<\/span><br \/>\n<span class=\"token assign-left variable\">max_prompt_length<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token variable\"><span class=\"token variable\">$((<\/span><span class=\"token number\">1024<\/span> <span class=\"token operator\">*<\/span> <span class=\"token number\">2<\/span><span class=\"token variable\">))<\/span><\/span><br \/>\n<span class=\"token assign-left variable\">max_response_length<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token variable\"><span class=\"token variable\">$((<\/span><span class=\"token number\">1024<\/span> <span class=\"token operator\">*<\/span> <span class=\"token number\">8<\/span><span class=\"token variable\">))<\/span><\/span><br \/>\n<span class=\"token comment\"># dapo reward manager params<\/span><br \/>\n<span class=\"token assign-left variable\">enable_overlong_buffer<\/span><span class=\"token operator\">&#061;<\/span>false <span class=\"token comment\"># true<\/span><br \/>\n<span class=\"token assign-left variable\">overlong_buffer_len<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token variable\"><span class=\"token variable\">$((<\/span><span class=\"token number\">1024<\/span> <span class=\"token operator\">*<\/span> <span class=\"token number\">4<\/span><span class=\"token variable\">))<\/span><\/span><br \/>\n<span class=\"token assign-left variable\">overlong_penalty_factor<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">1.0<\/span><br \/>\n<span class=\"token comment\"># Paths and namings<\/span><br \/>\n<span class=\"token assign-left variable\">SFT_MODEL<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token variable\"><span class=\"token variable\">$(<\/span><span class=\"token function\">basename<\/span> $MODEL_PATH<span class=\"token variable\">)<\/span><\/span><br \/>\n<span class=\"token assign-left variable\">exp_name<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;<span class=\"token variable\">${loss_mode}<\/span>-epslow-<span class=\"token variable\">${clip_ratio_low}<\/span>-epshigh-<span class=\"token variable\">${clip_ratio_high}<\/span>&#8211;<span class=\"token variable\">${SFT_MODEL}<\/span>-RL&#034;<\/span><br \/>\n<span class=\"token assign-left variable\">CKPTS_DIR<\/span><span class=\"token operator\">&#061;<\/span>\/rl\/checkpoints\/experimental\/4b\/<span class=\"token variable\">${loss_mode}<\/span>\/<span class=\"token variable\">${exp_name}<\/span><br \/>\n<span class=\"token comment\"># Sampling params at rollouts<\/span><br \/>\n<span class=\"token assign-left variable\">temperature<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">1.0<\/span><br \/>\n<span class=\"token assign-left variable\">top_p<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">1.0<\/span><br \/>\n<span class=\"token assign-left variable\">top_k<\/span><span class=\"token operator\">&#061;<\/span>-1 <span class=\"token comment\"># 0 for HF rollout, -1 for vLLM rollout<\/span><br \/>\n<span class=\"token assign-left variable\">val_top_p<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">0.7<\/span><br \/>\n<span class=\"token comment\"># Performance Related Parameter<\/span><br \/>\n<span class=\"token assign-left variable\">sp_size<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">4<\/span><br \/>\n<span class=\"token assign-left variable\">use_dynamic_bsz<\/span><span class=\"token operator\">&#061;<\/span>true<br \/>\n<span class=\"token assign-left variable\">actor_ppo_max_token_len<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token variable\"><span class=\"token variable\">$((<\/span><span class=\"token punctuation\">(<\/span>max_prompt_length <span class=\"token operator\">&#043;<\/span> max_response_length<span class=\"token punctuation\">)<\/span> <span class=\"token operator\">*<\/span> <span class=\"token number\">1<\/span><span class=\"token variable\">))<\/span><\/span><br \/>\n<span class=\"token assign-left variable\">infer_ppo_max_token_len<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token variable\"><span class=\"token variable\">$((<\/span><span class=\"token punctuation\">(<\/span>max_prompt_length <span class=\"token operator\">&#043;<\/span> max_response_length<span class=\"token punctuation\">)<\/span> <span class=\"token operator\">*<\/span> <span class=\"token number\">1<\/span><span class=\"token variable\">))<\/span><\/span><br \/>\n<span class=\"token assign-left variable\">offload<\/span><span class=\"token operator\">&#061;<\/span>true<br \/>\n<span class=\"token assign-left variable\">gen_tp<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">2<\/span><br \/>\n<span class=\"token assign-left variable\">entropy_checkpointing<\/span><span class=\"token operator\">&#061;<\/span>true <span class=\"token comment\"># This enables entropy recomputation specifically for the entropy calculation, lowering memory usage during training.<\/span><br \/>\n<span class=\"token assign-left variable\">gsm8k_train_path<\/span><span class=\"token operator\">&#061;<\/span>xx\/gsm8k\/post_data\/gsm8k\/train.parquet<br \/>\n<span class=\"token assign-left variable\">gsm8k_test_path<\/span><span class=\"token operator\">&#061;<\/span>xx\/gsm8k\/post_data\/gsm8k\/test.parquet<br \/>\n<span class=\"token comment\"># set the paths<\/span><br \/>\n<span class=\"token assign-left variable\">train_files<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;[&#039;<span class=\"token variable\">$gsm8k_train_path<\/span>&#039;]&#034;<\/span><br \/>\n<span class=\"token assign-left variable\">test_files<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;[&#039;<span class=\"token variable\">$gsm8k_test_path<\/span>&#039;]&#034;<\/span><br \/>\n<span class=\"token comment\">#! \u4fee\u6539filter_overlong_prompts false<\/span><br \/>\npython3 -m verl.trainer.main_ppo <span class=\"token punctuation\">\\\\<\/span><br \/>\n    algorithm.adv_estimator<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${adv_estimator}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.policy_loss.loss_mode<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${loss_mode}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    data.train_files<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;<span class=\"token variable\">${train_files}<\/span>&#034;<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    data.val_files<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;<span class=\"token variable\">${test_files}<\/span>&#034;<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    data.shuffle<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">$shuffle_dataset<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    data.prompt_key<span class=\"token operator\">&#061;<\/span>prompt <span class=\"token punctuation\">\\\\<\/span><br \/>\n    data.truncation<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#039;error&#039;<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    data.filter_overlong_prompts<span class=\"token operator\">&#061;<\/span>true <span class=\"token punctuation\">\\\\<\/span><br \/>\n    data.train_batch_size<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${train_batch_size}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    data.max_prompt_length<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${max_prompt_length}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    data.max_response_length<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${max_response_length}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.n<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${n_resp_per_prompt}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    algorithm.use_kl_in_reward<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${use_kl_in_reward}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    algorithm.kl_ctrl.kl_coef<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${kl_coef}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.use_kl_loss<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${use_kl_loss}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.kl_loss_coef<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${kl_loss_coef}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.clip_ratio_low<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${clip_ratio_low}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.clip_ratio_high<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${clip_ratio_high}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.model.use_remove_padding<span class=\"token operator\">&#061;<\/span>true <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.use_dynamic_bsz<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${use_dynamic_bsz}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.ref.log_prob_use_dynamic_bsz<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${use_dynamic_bsz}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.log_prob_use_dynamic_bsz<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${use_dynamic_bsz}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.ppo_max_token_len_per_gpu<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${actor_ppo_max_token_len}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.ref.log_prob_max_token_len_per_gpu<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${infer_ppo_max_token_len}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.log_prob_max_token_len_per_gpu<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${infer_ppo_max_token_len}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.name<span class=\"token operator\">&#061;<\/span>vllm <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.name<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${rollout_engine}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.mode<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${rollout_mode}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.model.path<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;<span class=\"token variable\">${MODEL_PATH}<\/span>&#034;<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.model.enable_gradient_checkpointing<span class=\"token operator\">&#061;<\/span>true <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.optim.lr<span class=\"token operator\">&#061;<\/span>1e-6 <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.optim.lr_warmup_steps_ratio<span class=\"token operator\">&#061;<\/span><span class=\"token number\">0.05<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.optim.weight_decay<span class=\"token operator\">&#061;<\/span><span class=\"token number\">0.1<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.ppo_mini_batch_size<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${ppo_mini_batch_size}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${ppo_micro_batch_size_per_gpu}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.fsdp_config.param_offload<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${offload}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.fsdp_config.optimizer_offload<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${offload}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.entropy_coeff<span class=\"token operator\">&#061;<\/span><span class=\"token number\">0<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.grad_clip<span class=\"token operator\">&#061;<\/span><span class=\"token number\">1.0<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.loss_agg_mode<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${loss_agg_mode}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.ulysses_sequence_parallel_size<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${sp_size}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.gpu_memory_utilization<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${gpu_memory_utilization}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.tensor_model_parallel_size<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${gen_tp}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.enable_chunked_prefill<span class=\"token operator\">&#061;<\/span>true <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.max_num_batched_tokens<span class=\"token operator\">&#061;<\/span><span class=\"token variable\"><span class=\"token variable\">$((<\/span>max_prompt_length <span class=\"token operator\">&#043;<\/span> max_response_length<span class=\"token variable\">))<\/span><\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.temperature<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${temperature}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.top_p<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${top_p}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.top_k<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${top_k}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.val_kwargs.temperature<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${temperature}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.val_kwargs.top_p<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${val_top_p}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.val_kwargs.top_k<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${top_k}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.val_kwargs.do_sample<span class=\"token operator\">&#061;<\/span>true <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.val_kwargs.n<span class=\"token operator\">&#061;<\/span><span class=\"token number\">1<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.ref.fsdp_config.param_offload<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${offload}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.ref.ulysses_sequence_parallel_size<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${sp_size}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.entropy_checkpointing<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${entropy_checkpointing}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    reward_model.reward_manager<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${reward_manager}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    &#043;reward_model.reward_kwargs.overlong_buffer_cfg.enable<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${enable_overlong_buffer}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    &#043;reward_model.reward_kwargs.overlong_buffer_cfg.len<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${overlong_buffer_len}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    &#043;reward_model.reward_kwargs.overlong_buffer_cfg.penalty_factor<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${overlong_penalty_factor}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    &#043;reward_model.reward_kwargs.overlong_buffer_cfg.log<span class=\"token operator\">&#061;<\/span>false <span class=\"token punctuation\">\\\\<\/span><br \/>\n    &#043;reward_model.reward_kwargs.max_resp_len<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${max_response_length}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.logger<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#039;[&#034;console&#034;]&#039;<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.enforce_eager<span class=\"token operator\">&#061;<\/span>True <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.use_torch_compile<span class=\"token operator\">&#061;<\/span>False <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.project_name<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;<span class=\"token variable\">${project_name}<\/span>&#034;<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.experiment_name<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;<span class=\"token variable\">${exp_name}<\/span>&#034;<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.n_gpus_per_node<span class=\"token operator\">&#061;<\/span><span class=\"token number\">16<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.nnodes<span class=\"token operator\">&#061;<\/span><span class=\"token number\">1<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.val_before_train<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${val_before_train}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.test_freq<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${test_freq}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.save_freq<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${save_freq}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.total_epochs<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${total_epochs}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.total_training_steps<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${total_training_steps}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.default_local_dir<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;<span class=\"token variable\">${CKPTS_DIR}<\/span>&#034;<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.resume_mode<span class=\"token operator\">&#061;<\/span>auto <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.device<span class=\"token operator\">&#061;<\/span>npu <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.log_val_generations<span class=\"token operator\">&#061;<\/span><span class=\"token number\">2<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    <span class=\"token variable\">$&#064;<\/span><\/p>\n<h4>\u5b98\u65b9\u8c03\u8bd5\u6570\u636e<\/h4>\n<p><img decoding=\"async\" src=\"https:\/\/www.wsisp.com\/helps\/wp-content\/uploads\/2026\/02\/20260226193353-69a0a0215e9f6.png\" alt=\"\u5728\u8fd9\u91cc\u63d2\u5165\u56fe\u7247\u63cf\u8ff0\" \/><\/p>\n<h4>\u8c03\u8bd5\u7ed3\u679c<\/h4>\n<p><img decoding=\"async\" src=\"https:\/\/www.wsisp.com\/helps\/wp-content\/uploads\/2026\/02\/20260226193353-69a0a0218b483.png\" alt=\"\u5728\u8fd9\u91cc\u63d2\u5165\u56fe\u7247\u63cf\u8ff0\" \/><\/p>\n<p>\u7ed3\u8bba&#xff1a;\u66f2\u7ebf\u6b63\u5e38\u4e0a\u5347&#xff0c;\u4e0a\u5347\u8d8b\u52bf\u4e00\u81f4&#xff0c;\u7b26\u5408\u9884\u671f\u7ed3\u679c<\/p>\n<h3>\u8c03\u8bd5\u7528\u4f8b2&#xff1a;Qwen3-30B-A3B<\/h3>\n<h4>\u8c03\u8bd5\u811a\u672c<\/h4>\n<p>project_name<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#039;DAPO&#039;<\/span><br \/>\nexp_name<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#039;GSPO-Qwen3-30B-A3B-4nodes&#039;<\/span><br \/>\nadv_estimator<span class=\"token operator\">&#061;<\/span>grpo<br \/>\nuse_kl_in_reward<span class=\"token operator\">&#061;<\/span><span class=\"token boolean\">False<\/span><br \/>\nkl_coef<span class=\"token operator\">&#061;<\/span><span class=\"token number\">0.0<\/span><br \/>\nuse_kl_loss<span class=\"token operator\">&#061;<\/span><span class=\"token boolean\">False<\/span><br \/>\nkl_loss_coef<span class=\"token operator\">&#061;<\/span><span class=\"token number\">0.0<\/span><br \/>\nclip_ratio_low<span class=\"token operator\">&#061;<\/span><span class=\"token number\">3e-4<\/span><br \/>\nclip_ratio_high<span class=\"token operator\">&#061;<\/span><span class=\"token number\">4e-4<\/span><br \/>\nmax_prompt_length<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">(<\/span><span class=\"token punctuation\">(<\/span><span class=\"token number\">1024<\/span> <span class=\"token operator\">*<\/span> <span class=\"token number\">2<\/span><span class=\"token punctuation\">)<\/span><span class=\"token punctuation\">)<\/span><br \/>\nmax_response_length<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">(<\/span><span class=\"token punctuation\">(<\/span><span class=\"token number\">1024<\/span> <span class=\"token operator\">*<\/span> <span class=\"token number\">8<\/span><span class=\"token punctuation\">)<\/span><span class=\"token punctuation\">)<\/span><br \/>\nenable_overlong_buffer<span class=\"token operator\">&#061;<\/span><span class=\"token boolean\">True<\/span><br \/>\noverlong_buffer_len<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">(<\/span><span class=\"token punctuation\">(<\/span><span class=\"token number\">1024<\/span> <span class=\"token operator\">*<\/span> <span class=\"token number\">4<\/span><span class=\"token punctuation\">)<\/span><span class=\"token punctuation\">)<\/span><br \/>\noverlong_penalty_factor<span class=\"token operator\">&#061;<\/span><span class=\"token number\">1.0<\/span><br \/>\nloss_agg_mode<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;token-mean&#034;<\/span><br \/>\nloss_mode<span class=\"token operator\">&#061;<\/span>gspo<br \/>\ntrain_prompt_bsz<span class=\"token operator\">&#061;<\/span><span class=\"token number\">32<\/span><br \/>\nn_resp_per_prompt<span class=\"token operator\">&#061;<\/span><span class=\"token number\">2<\/span><br \/>\ntrain_prompt_mini_bsz<span class=\"token operator\">&#061;<\/span><span class=\"token number\">4<\/span><br \/>\nNNODES<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>NNODES<span class=\"token punctuation\">:<\/span><span class=\"token operator\">&#8211;<\/span><span class=\"token number\">2<\/span><span class=\"token punctuation\">}<\/span><br \/>\nNGPUS_PER_NODE<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>NGPUS_PER_NODE<span class=\"token punctuation\">:<\/span><span class=\"token operator\">&#8211;<\/span><span class=\"token number\">8<\/span><span class=\"token punctuation\">}<\/span><br \/>\nMODEL_PATH<span class=\"token operator\">&#061;<\/span>xx<span class=\"token operator\">\/<\/span>weight<span class=\"token operator\">\/<\/span>Qwen3_30B<span class=\"token operator\">\/<\/span>Qwen3_30B<br \/>\nCKPTS_DIR<span class=\"token operator\">&#061;<\/span>$DATA_ROOT<span class=\"token operator\">\/<\/span>checkpoint<span class=\"token operator\">\/<\/span>$<span class=\"token punctuation\">{<\/span>project_name<span class=\"token punctuation\">}<\/span><span class=\"token operator\">\/<\/span>$<span class=\"token punctuation\">{<\/span>exp_name<span class=\"token punctuation\">}<\/span><br \/>\nTRAIN_FILE<span class=\"token operator\">&#061;<\/span>xx<span class=\"token operator\">\/<\/span>rl_data<span class=\"token operator\">\/<\/span>dapo<span class=\"token operator\">&#8211;<\/span>math<span class=\"token operator\">\/<\/span>dapo<span class=\"token operator\">&#8211;<\/span>math<span class=\"token operator\">&#8211;<\/span>17k<span class=\"token punctuation\">.<\/span>parquet<br \/>\n<span class=\"token comment\"># aime24_test_path&#061;\/data01\/huawei-2025\/rl_data\/aime-2024\/aime-2024.parquet<\/span><br \/>\naime24_test_path<span class=\"token operator\">&#061;<\/span>xx<span class=\"token operator\">\/<\/span>rl_data<span class=\"token operator\">\/<\/span>dapo<span class=\"token operator\">&#8211;<\/span>math<span class=\"token operator\">\/<\/span>dapo<span class=\"token operator\">&#8211;<\/span>math<span class=\"token operator\">&#8211;<\/span>17k<span class=\"token punctuation\">.<\/span>parquet<br \/>\nTEST_FILE<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;[&#039;$aime24_test_path&#039;]&#034;<\/span><br \/>\n<span class=\"token comment\"># Algorithm<\/span><br \/>\ntemperature<span class=\"token operator\">&#061;<\/span><span class=\"token number\">1.0<\/span><br \/>\ntop_p<span class=\"token operator\">&#061;<\/span><span class=\"token number\">1.0<\/span><br \/>\ntop_k<span class=\"token operator\">&#061;<\/span><span class=\"token operator\">&#8211;<\/span><span class=\"token number\">1<\/span> <span class=\"token comment\"># 0 for HF rollout, -1 for vLLM rollout<\/span><br \/>\nval_top_p<span class=\"token operator\">&#061;<\/span><span class=\"token number\">0.7<\/span><br \/>\n<span class=\"token comment\"># Performance Related Parameter<\/span><br \/>\nuse_dynamic_bsz<span class=\"token operator\">&#061;<\/span><span class=\"token boolean\">True<\/span><br \/>\nactor_ppo_max_token_len<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">(<\/span><span class=\"token punctuation\">(<\/span><span class=\"token punctuation\">(<\/span>max_prompt_length <span class=\"token operator\">&#043;<\/span> max_response_length<span class=\"token punctuation\">)<\/span> <span class=\"token operator\">*<\/span> <span class=\"token number\">1<\/span><span class=\"token punctuation\">)<\/span><span class=\"token punctuation\">)<\/span><br \/>\ninfer_ppo_max_token_len<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">(<\/span><span class=\"token punctuation\">(<\/span><span class=\"token punctuation\">(<\/span>max_prompt_length <span class=\"token operator\">&#043;<\/span> max_response_length<span class=\"token punctuation\">)<\/span> <span class=\"token operator\">*<\/span> <span class=\"token number\">1<\/span><span class=\"token punctuation\">)<\/span><span class=\"token punctuation\">)<\/span><br \/>\noffload<span class=\"token operator\">&#061;<\/span><span class=\"token boolean\">True<\/span><br \/>\n<span class=\"token comment\"># gen<\/span><br \/>\nrollout_name<span class=\"token operator\">&#061;<\/span>vllm <span class=\"token comment\"># vllm or sglang<\/span><br \/>\ngen_tp<span class=\"token operator\">&#061;<\/span><span class=\"token number\">4<\/span><br \/>\ngen_dp<span class=\"token operator\">&#061;<\/span><span class=\"token number\">8<\/span><br \/>\n<span class=\"token comment\"># gen_ep&#061;4<\/span><br \/>\n<span class=\"token comment\"># train<\/span><br \/>\ntrain_tp<span class=\"token operator\">&#061;<\/span><span class=\"token number\">4<\/span><br \/>\ntrain_pp<span class=\"token operator\">&#061;<\/span><span class=\"token number\">4<\/span><br \/>\nEP<span class=\"token operator\">&#061;<\/span><span class=\"token number\">8<\/span><br \/>\nETP<span class=\"token operator\">&#061;<\/span><span class=\"token number\">1<\/span><br \/>\nRUNTIME_ENV<span class=\"token operator\">&#061;<\/span>verl<span class=\"token operator\">\/<\/span>trainer<span class=\"token operator\">\/<\/span>mc2_env<span class=\"token punctuation\">.<\/span>yaml<br \/>\ncd <span class=\"token operator\">\/<\/span>opt<span class=\"token operator\">\/<\/span>verl<br \/>\nray job submit <span class=\"token operator\">&#8211;<\/span><span class=\"token operator\">&#8211;<\/span>runtime<span class=\"token operator\">&#8211;<\/span>env<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;${RUNTIME_ENV}&#034;<\/span> \\\\<br \/>\n    <span class=\"token operator\">&#8211;<\/span><span class=\"token operator\">&#8211;<\/span> python3 <span class=\"token operator\">&#8211;<\/span>m verl<span class=\"token punctuation\">.<\/span>trainer<span class=\"token punctuation\">.<\/span>main_ppo \\\\<br \/>\n    <span class=\"token operator\">&#8211;<\/span><span class=\"token operator\">&#8211;<\/span>config<span class=\"token operator\">&#8211;<\/span>path<span class=\"token operator\">&#061;<\/span>config \\\\<br \/>\n    <span class=\"token operator\">&#8211;<\/span><span class=\"token operator\">&#8211;<\/span>config<span class=\"token operator\">&#8211;<\/span>name<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#039;ppo_megatron_trainer.yaml&#039;<\/span> \\\\<br \/>\n    data<span class=\"token punctuation\">.<\/span>train_files<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;${TRAIN_FILE}&#034;<\/span> \\\\<br \/>\n    data<span class=\"token punctuation\">.<\/span>val_files<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;${TEST_FILE}&#034;<\/span> \\\\<br \/>\n    data<span class=\"token punctuation\">.<\/span>prompt_key<span class=\"token operator\">&#061;<\/span>prompt \\\\<br \/>\n    data<span class=\"token punctuation\">.<\/span>return_raw_chat<span class=\"token operator\">&#061;<\/span><span class=\"token boolean\">True<\/span> \\\\<br \/>\n    data<span class=\"token punctuation\">.<\/span>truncation<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#039;left&#039;<\/span> \\\\<br \/>\n    data<span class=\"token punctuation\">.<\/span>max_prompt_length<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>max_prompt_length<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    data<span class=\"token punctuation\">.<\/span>max_response_length<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>max_response_length<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    data<span class=\"token punctuation\">.<\/span>train_batch_size<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>train_prompt_bsz<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>rollout<span class=\"token punctuation\">.<\/span>n<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>n_resp_per_prompt<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>actor<span class=\"token punctuation\">.<\/span>policy_loss<span class=\"token punctuation\">.<\/span>loss_mode<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>loss_mode<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    algorithm<span class=\"token punctuation\">.<\/span>adv_estimator<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>adv_estimator<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    algorithm<span class=\"token punctuation\">.<\/span>use_kl_in_reward<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>use_kl_in_reward<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    algorithm<span class=\"token punctuation\">.<\/span>kl_ctrl<span class=\"token punctuation\">.<\/span>kl_coef<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>kl_coef<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>actor<span class=\"token punctuation\">.<\/span>use_kl_loss<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>use_kl_loss<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>actor<span class=\"token punctuation\">.<\/span>kl_loss_coef<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>kl_loss_coef<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>actor<span class=\"token punctuation\">.<\/span>clip_ratio_low<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>clip_ratio_low<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>actor<span class=\"token punctuation\">.<\/span>clip_ratio_high<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>clip_ratio_high<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>actor<span class=\"token punctuation\">.<\/span>clip_ratio_c<span class=\"token operator\">&#061;<\/span><span class=\"token number\">10.0<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>actor<span class=\"token punctuation\">.<\/span>use_dynamic_bsz<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>use_dynamic_bsz<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>ref<span class=\"token punctuation\">.<\/span>log_prob_use_dynamic_bsz<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>use_dynamic_bsz<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>rollout<span class=\"token punctuation\">.<\/span>log_prob_use_dynamic_bsz<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>use_dynamic_bsz<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>actor<span class=\"token punctuation\">.<\/span>ppo_max_token_len_per_gpu<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>actor_ppo_max_token_len<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>ref<span class=\"token punctuation\">.<\/span>log_prob_max_token_len_per_gpu<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>infer_ppo_max_token_len<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>rollout<span class=\"token punctuation\">.<\/span>log_prob_max_token_len_per_gpu<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>infer_ppo_max_token_len<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>model<span class=\"token punctuation\">.<\/span>path<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;${MODEL_PATH}&#034;<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>actor<span class=\"token punctuation\">.<\/span>optim<span class=\"token punctuation\">.<\/span>lr<span class=\"token operator\">&#061;<\/span><span class=\"token number\">1e-6<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>actor<span class=\"token punctuation\">.<\/span>optim<span class=\"token punctuation\">.<\/span>lr_warmup_steps<span class=\"token operator\">&#061;<\/span><span class=\"token number\">10<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>actor<span class=\"token punctuation\">.<\/span>optim<span class=\"token punctuation\">.<\/span>weight_decay<span class=\"token operator\">&#061;<\/span><span class=\"token number\">0.1<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>actor<span class=\"token punctuation\">.<\/span>ppo_mini_batch_size<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>train_prompt_mini_bsz<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>actor<span class=\"token punctuation\">.<\/span>entropy_coeff<span class=\"token operator\">&#061;<\/span><span class=\"token number\">0<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>actor<span class=\"token punctuation\">.<\/span>optim<span class=\"token punctuation\">.<\/span>clip_grad<span class=\"token operator\">&#061;<\/span><span class=\"token number\">1.0<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>actor<span class=\"token punctuation\">.<\/span>loss_agg_mode<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>loss_agg_mode<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>actor<span class=\"token punctuation\">.<\/span>megatron<span class=\"token punctuation\">.<\/span>param_offload<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>offload<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>actor<span class=\"token punctuation\">.<\/span>megatron<span class=\"token punctuation\">.<\/span>optimizer_offload<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>offload<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>actor<span class=\"token punctuation\">.<\/span>megatron<span class=\"token punctuation\">.<\/span>grad_offload<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>offload<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>actor<span class=\"token punctuation\">.<\/span>megatron<span class=\"token punctuation\">.<\/span>pipeline_model_parallel_size<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>train_pp<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>actor<span class=\"token punctuation\">.<\/span>megatron<span class=\"token punctuation\">.<\/span>tensor_model_parallel_size<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>train_tp<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>actor<span class=\"token punctuation\">.<\/span>megatron<span class=\"token punctuation\">.<\/span>expert_model_parallel_size<span class=\"token operator\">&#061;<\/span>$EP \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>actor<span class=\"token punctuation\">.<\/span>megatron<span class=\"token punctuation\">.<\/span>expert_tensor_parallel_size<span class=\"token operator\">&#061;<\/span>$ETP \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>rollout<span class=\"token punctuation\">.<\/span>gpu_memory_utilization<span class=\"token operator\">&#061;<\/span><span class=\"token number\">0.80<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>rollout<span class=\"token punctuation\">.<\/span>enable_chunked_prefill<span class=\"token operator\">&#061;<\/span><span class=\"token boolean\">True<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>rollout<span class=\"token punctuation\">.<\/span>max_num_batched_tokens<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">(<\/span><span class=\"token punctuation\">(<\/span>max_prompt_length <span class=\"token operator\">&#043;<\/span> max_response_length<span class=\"token punctuation\">)<\/span><span class=\"token punctuation\">)<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>rollout<span class=\"token punctuation\">.<\/span>temperature<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>temperature<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>rollout<span class=\"token punctuation\">.<\/span>top_p<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>top_p<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>rollout<span class=\"token punctuation\">.<\/span>top_k<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>top_k<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>rollout<span class=\"token punctuation\">.<\/span>val_kwargs<span class=\"token punctuation\">.<\/span>temperature<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>temperature<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>rollout<span class=\"token punctuation\">.<\/span>val_kwargs<span class=\"token punctuation\">.<\/span>top_p<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>val_top_p<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>rollout<span class=\"token punctuation\">.<\/span>val_kwargs<span class=\"token punctuation\">.<\/span>top_k<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>top_k<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>rollout<span class=\"token punctuation\">.<\/span>val_kwargs<span class=\"token punctuation\">.<\/span>do_sample<span class=\"token operator\">&#061;<\/span><span class=\"token boolean\">True<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>rollout<span class=\"token punctuation\">.<\/span>val_kwargs<span class=\"token punctuation\">.<\/span>n<span class=\"token operator\">&#061;<\/span><span class=\"token number\">1<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>rollout<span class=\"token punctuation\">.<\/span>name<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>rollout_name<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>rollout<span class=\"token punctuation\">.<\/span>mode<span class=\"token operator\">&#061;<\/span>sync \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>rollout<span class=\"token punctuation\">.<\/span>calculate_log_probs<span class=\"token operator\">&#061;<\/span><span class=\"token boolean\">True<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>rollout<span class=\"token punctuation\">.<\/span>tensor_model_parallel_size<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>gen_tp<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>rollout<span class=\"token punctuation\">.<\/span>data_parallel_size<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>gen_dp<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>ref<span class=\"token punctuation\">.<\/span>megatron<span class=\"token punctuation\">.<\/span>pipeline_model_parallel_size<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>train_pp<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>ref<span class=\"token punctuation\">.<\/span>megatron<span class=\"token punctuation\">.<\/span>tensor_model_parallel_size<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>train_tp<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>ref<span class=\"token punctuation\">.<\/span>megatron<span class=\"token punctuation\">.<\/span>expert_model_parallel_size<span class=\"token operator\">&#061;<\/span>$EP \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>ref<span class=\"token punctuation\">.<\/span>megatron<span class=\"token punctuation\">.<\/span>expert_tensor_parallel_size<span class=\"token operator\">&#061;<\/span>$ETP \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>ref<span class=\"token punctuation\">.<\/span>megatron<span class=\"token punctuation\">.<\/span>param_offload<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>offload<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    actor_rollout_ref<span class=\"token punctuation\">.<\/span>actor<span class=\"token punctuation\">.<\/span>megatron<span class=\"token punctuation\">.<\/span>use_mbridge<span class=\"token operator\">&#061;<\/span><span class=\"token boolean\">True<\/span> \\\\<br \/>\n    <span class=\"token operator\">&#043;<\/span>actor_rollout_ref<span class=\"token punctuation\">.<\/span>actor<span class=\"token punctuation\">.<\/span>megatron<span class=\"token punctuation\">.<\/span>override_transformer_config<span class=\"token punctuation\">.<\/span>moe_router_dtype<span class=\"token operator\">&#061;<\/span>fp32 \\\\<br \/>\n    <span class=\"token operator\">&#043;<\/span>actor_rollout_ref<span class=\"token punctuation\">.<\/span>actor<span class=\"token punctuation\">.<\/span>megatron<span class=\"token punctuation\">.<\/span>override_transformer_config<span class=\"token punctuation\">.<\/span>recompute_method<span class=\"token operator\">&#061;<\/span>uniform \\\\<br \/>\n    <span class=\"token operator\">&#043;<\/span>actor_rollout_ref<span class=\"token punctuation\">.<\/span>actor<span class=\"token punctuation\">.<\/span>megatron<span class=\"token punctuation\">.<\/span>override_transformer_config<span class=\"token punctuation\">.<\/span>recompute_granularity<span class=\"token operator\">&#061;<\/span>full \\\\<br \/>\n    <span class=\"token operator\">&#043;<\/span>actor_rollout_ref<span class=\"token punctuation\">.<\/span>actor<span class=\"token punctuation\">.<\/span>megatron<span class=\"token punctuation\">.<\/span>override_transformer_config<span class=\"token punctuation\">.<\/span>recompute_num_layers<span class=\"token operator\">&#061;<\/span><span class=\"token number\">1<\/span> \\\\<br \/>\n    reward_model<span class=\"token punctuation\">.<\/span>reward_manager<span class=\"token operator\">&#061;<\/span>dapo \\\\<br \/>\n    <span class=\"token operator\">&#043;<\/span>reward_model<span class=\"token punctuation\">.<\/span>reward_kwargs<span class=\"token punctuation\">.<\/span>overlong_buffer_cfg<span class=\"token punctuation\">.<\/span>enable<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>enable_overlong_buffer<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    <span class=\"token operator\">&#043;<\/span>reward_model<span class=\"token punctuation\">.<\/span>reward_kwargs<span class=\"token punctuation\">.<\/span>overlong_buffer_cfg<span class=\"token punctuation\">.<\/span><span class=\"token builtin\">len<\/span><span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>overlong_buffer_len<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    <span class=\"token operator\">&#043;<\/span>reward_model<span class=\"token punctuation\">.<\/span>reward_kwargs<span class=\"token punctuation\">.<\/span>overlong_buffer_cfg<span class=\"token punctuation\">.<\/span>penalty_factor<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>overlong_penalty_factor<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    <span class=\"token operator\">&#043;<\/span>reward_model<span class=\"token punctuation\">.<\/span>reward_kwargs<span class=\"token punctuation\">.<\/span>overlong_buffer_cfg<span class=\"token punctuation\">.<\/span>log<span class=\"token operator\">&#061;<\/span><span class=\"token boolean\">False<\/span> \\\\<br \/>\n    <span class=\"token operator\">&#043;<\/span>reward_model<span class=\"token punctuation\">.<\/span>reward_kwargs<span class=\"token punctuation\">.<\/span>max_resp_len<span class=\"token operator\">&#061;<\/span>$<span class=\"token punctuation\">{<\/span>max_response_length<span class=\"token punctuation\">}<\/span> \\\\<br \/>\n    trainer<span class=\"token punctuation\">.<\/span>logger<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;console&#034;<\/span> \\\\<br \/>\n    trainer<span class=\"token punctuation\">.<\/span>project_name<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;${project_name}&#034;<\/span> \\\\<br \/>\n    trainer<span class=\"token punctuation\">.<\/span>experiment_name<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;${exp_name}-tp${gen_tp}-ep${gen_ep}&#034;<\/span> \\\\<br \/>\n    trainer<span class=\"token punctuation\">.<\/span>n_gpus_per_node<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;${NGPUS_PER_NODE}&#034;<\/span> \\\\<br \/>\n    trainer<span class=\"token punctuation\">.<\/span>nnodes<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;${NNODES}&#034;<\/span> \\\\<br \/>\n    trainer<span class=\"token punctuation\">.<\/span>val_before_train<span class=\"token operator\">&#061;<\/span><span class=\"token boolean\">False<\/span> \\\\<br \/>\n    trainer<span class=\"token punctuation\">.<\/span>test_freq<span class=\"token operator\">&#061;<\/span><span class=\"token operator\">&#8211;<\/span><span class=\"token number\">1<\/span> \\\\<br \/>\n    trainer<span class=\"token punctuation\">.<\/span>save_freq<span class=\"token operator\">&#061;<\/span><span class=\"token operator\">&#8211;<\/span><span class=\"token number\">1<\/span> \\\\<br \/>\n    trainer<span class=\"token punctuation\">.<\/span>total_epochs<span class=\"token operator\">&#061;<\/span><span class=\"token number\">10<\/span> \\\\<br \/>\n    trainer<span class=\"token punctuation\">.<\/span>total_training_steps<span class=\"token operator\">&#061;<\/span><span class=\"token number\">300<\/span> \\\\<br \/>\n    trainer<span class=\"token punctuation\">.<\/span>default_local_dir<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;${CKPTS_DIR}&#034;<\/span> \\\\<br \/>\n    trainer<span class=\"token punctuation\">.<\/span>resume_mode<span class=\"token operator\">&#061;<\/span>auto \\\\<br \/>\n    trainer<span class=\"token punctuation\">.<\/span>log_val_generations<span class=\"token operator\">&#061;<\/span><span class=\"token number\">10<\/span> \\\\<br \/>\n    <span class=\"token operator\">&#043;<\/span>actor_rollout_ref<span class=\"token punctuation\">.<\/span>actor<span class=\"token punctuation\">.<\/span>megatron<span class=\"token punctuation\">.<\/span>override_transformer_config<span class=\"token punctuation\">.<\/span>use_flash_attn<span class=\"token operator\">&#061;<\/span><span class=\"token boolean\">True<\/span> \\\\<br \/>\n    trainer<span class=\"token punctuation\">.<\/span>device<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;npu&#034;<\/span> $&#064;<\/p>\n<h4>GRPO vs GSPO \u8c03\u8bd5\u7ed3\u679c<\/h4>\n<p><img decoding=\"async\" src=\"https:\/\/www.wsisp.com\/helps\/wp-content\/uploads\/2026\/02\/20260226193354-69a0a02278296.png\" alt=\"\u5728\u8fd9\u91cc\u63d2\u5165\u56fe\u7247\u63cf\u8ff0\" \/><\/p>\n<p>\u200b\u7ed3\u8bba\u200b&#xff1a;GSPO\u5728MOE\u6a21\u578b\u4e0a\u5c55\u793a\u51fa\u4e86\u66f4\u597d\u7684\u8bad\u7ec3\u6548\u679c<\/p>\n<h3>\u6700\u65b0\u7248\u672c\u8c03\u8bd5<\/h3>\n<p>\u57fa\u4e8e\u6700\u65b0\u7248\u672cverl\u8c03\u8bd5\u670d\u52a1\u5316vllm\u540e\u7aef\u548cengineworker\u529f\u80fd<\/p>\n<h4>\u73af\u5883<\/h4>\n<table>\n<tr>\u914d\u7f6e\u9879\u7248\u672c\u4fe1\u606f\u5907\u6ce8<\/tr>\n<tbody>\n<tr>\n<td>CANN<\/td>\n<td>8.3.RC1<\/td>\n<td><\/td>\n<\/tr>\n<tr>\n<td>torch<\/td>\n<td>2.7.1<\/td>\n<td><\/td>\n<\/tr>\n<tr>\n<td>torch_npu<\/td>\n<td>2.7.1<\/td>\n<td><\/td>\n<\/tr>\n<tr>\n<td>transformer<\/td>\n<td>4.57.3<\/td>\n<td><\/td>\n<\/tr>\n<tr>\n<td>vllm<\/td>\n<td>v0.11.0<\/td>\n<td><\/td>\n<\/tr>\n<tr>\n<td>vllm-ascend<\/td>\n<td>v0.11.0rc1<\/td>\n<td><\/td>\n<\/tr>\n<tr>\n<td>verl<\/td>\n<td>commit:5a2e0b1c272b33<\/td>\n<td>10\u670810\u65e5\u4ee3\u7801<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<h4>\u8c03\u8bd5\u7528\u4f8b3&#xff1a;\u670d\u52a1\u5316vllm\u540e\u7aefGSPO\u529f\u80fd\u8c03\u8bd5<\/h4>\n<h5>\u8c03\u8bd5\u811a\u672c<\/h5>\n<p><span class=\"token shebang important\">#!\/usr\/bin\/env bash<\/span><br \/>\n<span class=\"token builtin class-name\">set<\/span> -x<\/p>\n<p><span class=\"token function\">pkill<\/span> -9 python<br \/>\n<span class=\"token function\">ps<\/span> -ef <span class=\"token operator\">|<\/span> <span class=\"token function\">grep<\/span> <span class=\"token string\">&#034;python&#034;<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">grep<\/span> -v <span class=\"token function\">grep<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">awk<\/span> <span class=\"token string\">&#039;{print $2}&#039;<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">xargs<\/span> -t -i <span class=\"token function\">kill<\/span> -9 <span class=\"token punctuation\">{<\/span><span class=\"token punctuation\">}<\/span><br \/>\nray stop &#8211;force<br \/>\n<span class=\"token function\">pkill<\/span> -9 python<br \/>\n<span class=\"token function\">pkill<\/span> -9 torchrun<br \/>\n<span class=\"token function\">ps<\/span> -ef <span class=\"token operator\">|<\/span> <span class=\"token function\">grep<\/span> <span class=\"token string\">&#034;defaunct&#034;<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">grep<\/span> python <span class=\"token operator\">|<\/span><span class=\"token function\">awk<\/span> <span class=\"token string\">&#039;{print $3}&#039;<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">xargs<\/span> -t -i <span class=\"token function\">kill<\/span> -9 <span class=\"token punctuation\">{<\/span><span class=\"token punctuation\">}<\/span><br \/>\n<span class=\"token function\">ps<\/span> -ef <span class=\"token operator\">|<\/span> <span class=\"token function\">grep<\/span> <span class=\"token string\">&#034;defaunct&#034;<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">grep<\/span> torchrun <span class=\"token operator\">|<\/span><span class=\"token function\">awk<\/span> <span class=\"token string\">&#039;{print $3}&#039;<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">xargs<\/span> -t -i <span class=\"token function\">kill<\/span> -9 <span class=\"token punctuation\">{<\/span><span class=\"token punctuation\">}<\/span><br \/>\n<span class=\"token function\">ps<\/span> -ef <span class=\"token operator\">|<\/span> <span class=\"token function\">grep<\/span> -i python <span class=\"token operator\">|<\/span><span class=\"token function\">grep<\/span> -i <span class=\"token punctuation\">[<\/span>name<span class=\"token punctuation\">]<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">grep<\/span> -v <span class=\"token function\">grep<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">awk<\/span> <span class=\"token string\">&#039;{print $2}&#039;<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">xargs<\/span> -t -I <span class=\"token punctuation\">{<\/span><span class=\"token punctuation\">}<\/span> <span class=\"token function\">kill<\/span> -9 <span class=\"token punctuation\">{<\/span><span class=\"token punctuation\">}<\/span><br \/>\n<span class=\"token function\">ps<\/span> -ef <span class=\"token operator\">|<\/span> <span class=\"token function\">grep<\/span> -i torchrun <span class=\"token operator\">|<\/span><span class=\"token function\">grep<\/span> -i <span class=\"token punctuation\">[<\/span>name<span class=\"token punctuation\">]<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">grep<\/span> -v <span class=\"token function\">grep<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">awk<\/span> <span class=\"token string\">&#039;{print $2}&#039;<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">xargs<\/span> -t -I <span class=\"token punctuation\">{<\/span><span class=\"token punctuation\">}<\/span> <span class=\"token function\">kill<\/span> -9 <span class=\"token punctuation\">{<\/span><span class=\"token punctuation\">}<\/span><br \/>\n<span class=\"token function\">ps<\/span> -ef <span class=\"token operator\">|<\/span> <span class=\"token function\">grep<\/span> <span class=\"token string\">&#034;python&#034;<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">grep<\/span> -v <span class=\"token function\">grep<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">awk<\/span> <span class=\"token string\">&#039;{print $2}&#039;<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">xargs<\/span> -t -i <span class=\"token function\">kill<\/span> -9 <span class=\"token punctuation\">{<\/span><span class=\"token punctuation\">}<\/span><br \/>\n<span class=\"token comment\"># Set how many GPUs we actually have on this node.<\/span><br \/>\n<span class=\"token builtin class-name\">export<\/span> <span class=\"token assign-left variable\">GPUS_PER_NODE<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">8<\/span><\/p>\n<p><span class=\"token builtin class-name\">export<\/span> <span class=\"token assign-left variable\">NNODES<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">1<\/span><br \/>\n<span class=\"token builtin class-name\">export<\/span> <span class=\"token assign-left variable\">VLLM_ASCEND_ENABLE_NZ<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">0<\/span><\/p>\n<p><span class=\"token builtin class-name\">echo<\/span> <span class=\"token string\">&#034;Using <span class=\"token variable\">$NNODES<\/span> nodes for training&#8230;&#034;<\/span><\/p>\n<p><span class=\"token comment\">#export ASCEND_LAUNCH_BLOCKING&#061;1 <\/span><br \/>\n<span class=\"token comment\"># &#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;- Setup xp params &#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;<\/span><br \/>\n<span class=\"token assign-left variable\">project_name<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#039;RL-GSPO&#039;<\/span><\/p>\n<p><span class=\"token assign-left variable\">adv_estimator<\/span><span class=\"token operator\">&#061;<\/span>grpo<br \/>\n<span class=\"token assign-left variable\">loss_mode<\/span><span class=\"token operator\">&#061;<\/span>gspo<br \/>\n<span class=\"token assign-left variable\">loss_agg_mode<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;seq-mean-token-mean&#034;<\/span><br \/>\n<span class=\"token assign-left variable\">MODEL_PATH<\/span><span class=\"token operator\">&#061;<\/span>xx\/weights\/Qwen2.5-3B-Instruct<br \/>\n<span class=\"token assign-left variable\">offload<\/span><span class=\"token operator\">&#061;<\/span>false <span class=\"token comment\"># it&#039;s a small model, offloading will just slow-down training<\/span><br \/>\n<span class=\"token assign-left variable\">rollout_engine<\/span><span class=\"token operator\">&#061;<\/span>vllm<br \/>\n<span class=\"token assign-left variable\">rollout_mode<\/span><span class=\"token operator\">&#061;<\/span>async<br \/>\n<span class=\"token assign-left variable\">return_raw_chat<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;True&#034;<\/span><br \/>\n<span class=\"token keyword\">if<\/span> <span class=\"token punctuation\">[<\/span> <span class=\"token string\">&#034;<span class=\"token variable\">$rollout_engine<\/span>&#034;<\/span> <span class=\"token operator\">&#061;<\/span> <span class=\"token string\">&#034;vllm&#034;<\/span> <span class=\"token punctuation\">]<\/span><span class=\"token punctuation\">;<\/span> <span class=\"token keyword\">then<\/span><br \/>\n    <span class=\"token builtin class-name\">export<\/span> <span class=\"token assign-left variable\">VLLM_USE_V1<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">1<\/span><br \/>\n<span class=\"token keyword\">fi<\/span><br \/>\n<span class=\"token assign-left variable\">gpu_memory_utilization<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">0.6<\/span><br \/>\n<span class=\"token assign-left variable\">reward_manager<\/span><span class=\"token operator\">&#061;<\/span>dapo<br \/>\n<span class=\"token assign-left variable\">adv_estimator<\/span><span class=\"token operator\">&#061;<\/span>grpo<br \/>\n<span class=\"token assign-left variable\">shuffle_dataset<\/span><span class=\"token operator\">&#061;<\/span>true<br \/>\n<span class=\"token assign-left variable\">first_time_dataset_prep<\/span><span class=\"token operator\">&#061;<\/span>true <span class=\"token comment\"># prepare dataset<\/span><\/p>\n<p><span class=\"token assign-left variable\">test_freq<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">10<\/span><br \/>\n<span class=\"token assign-left variable\">save_freq<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">10<\/span><br \/>\n<span class=\"token assign-left variable\">total_epochs<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">10<\/span><br \/>\n<span class=\"token assign-left variable\">total_training_steps<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">500<\/span><br \/>\n<span class=\"token assign-left variable\">val_before_train<\/span><span class=\"token operator\">&#061;<\/span>false<\/p>\n<p><span class=\"token assign-left variable\">use_kl_in_reward<\/span><span class=\"token operator\">&#061;<\/span>false<br \/>\n<span class=\"token assign-left variable\">kl_coef<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">0.0<\/span><br \/>\n<span class=\"token assign-left variable\">use_kl_loss<\/span><span class=\"token operator\">&#061;<\/span>false<br \/>\n<span class=\"token assign-left variable\">kl_loss_coef<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">0.0<\/span><\/p>\n<p><span class=\"token assign-left variable\">clip_ratio_low<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">0.0003<\/span> <span class=\"token comment\"># as recommended by the paper, see Sec. 5.1<\/span><br \/>\n<span class=\"token assign-left variable\">clip_ratio_high<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">0.0004<\/span> <span class=\"token comment\"># as recommended by the paper, see Sec. 5.1<\/span><br \/>\n<span class=\"token assign-left variable\">train_batch_size<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">512<\/span><br \/>\n<span class=\"token assign-left variable\">ppo_mini_batch_size<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">128<\/span> <span class=\"token comment\"># maintain 4 mini-batches as recommended by the paper, see Sec. 5.1<\/span><br \/>\n<span class=\"token assign-left variable\">ppo_micro_batch_size_per_gpu<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">8<\/span> <span class=\"token comment\"># setup depending on your GPU memory<\/span><br \/>\n<span class=\"token assign-left variable\">n_resp_per_prompt<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">16<\/span><\/p>\n<p><span class=\"token assign-left variable\">max_prompt_length<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token variable\"><span class=\"token variable\">$((<\/span><span class=\"token number\">1024<\/span> <span class=\"token operator\">*<\/span> <span class=\"token number\">2<\/span><span class=\"token variable\">))<\/span><\/span><br \/>\n<span class=\"token assign-left variable\">max_response_length<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token variable\"><span class=\"token variable\">$((<\/span><span class=\"token number\">1024<\/span> <span class=\"token operator\">*<\/span> <span class=\"token number\">8<\/span><span class=\"token variable\">))<\/span><\/span><br \/>\n<span class=\"token comment\"># dapo reward manager params<\/span><br \/>\n<span class=\"token assign-left variable\">enable_overlong_buffer<\/span><span class=\"token operator\">&#061;<\/span>false <span class=\"token comment\"># true<\/span><br \/>\n<span class=\"token assign-left variable\">overlong_buffer_len<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token variable\"><span class=\"token variable\">$((<\/span><span class=\"token number\">1024<\/span> <span class=\"token operator\">*<\/span> <span class=\"token number\">4<\/span><span class=\"token variable\">))<\/span><\/span><br \/>\n<span class=\"token assign-left variable\">overlong_penalty_factor<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">1.0<\/span><\/p>\n<p><span class=\"token comment\"># Paths and namings<\/span><br \/>\n<span class=\"token assign-left variable\">SFT_MODEL<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token variable\"><span class=\"token variable\">$(<\/span><span class=\"token function\">basename<\/span> $MODEL_PATH<span class=\"token variable\">)<\/span><\/span><br \/>\n<span class=\"token assign-left variable\">exp_name<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;<span class=\"token variable\">${loss_mode}<\/span>-epslow-<span class=\"token variable\">${clip_ratio_low}<\/span>-epshigh-<span class=\"token variable\">${clip_ratio_high}<\/span>&#8211;<span class=\"token variable\">${SFT_MODEL}<\/span>-RL&#034;<\/span><br \/>\n<span class=\"token assign-left variable\">CKPTS_DIR<\/span><span class=\"token operator\">&#061;<\/span>\/rl\/checkpoints\/experimental\/4b\/<span class=\"token variable\">${loss_mode}<\/span>\/<span class=\"token variable\">${exp_name}<\/span><\/p>\n<p><span class=\"token comment\"># Sampling params at rollouts<\/span><br \/>\n<span class=\"token assign-left variable\">temperature<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">1.0<\/span><br \/>\n<span class=\"token assign-left variable\">top_p<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">1.0<\/span><br \/>\n<span class=\"token assign-left variable\">top_k<\/span><span class=\"token operator\">&#061;<\/span>-1 <span class=\"token comment\"># 0 for HF rollout, -1 for vLLM rollout<\/span><br \/>\n<span class=\"token assign-left variable\">val_top_p<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">0.7<\/span><\/p>\n<p><span class=\"token comment\"># Performance Related Parameter<\/span><br \/>\n<span class=\"token assign-left variable\">sp_size<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">4<\/span><br \/>\n<span class=\"token assign-left variable\">use_dynamic_bsz<\/span><span class=\"token operator\">&#061;<\/span>true<br \/>\n<span class=\"token assign-left variable\">actor_ppo_max_token_len<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token variable\"><span class=\"token variable\">$((<\/span><span class=\"token punctuation\">(<\/span>max_prompt_length <span class=\"token operator\">&#043;<\/span> max_response_length<span class=\"token punctuation\">)<\/span> <span class=\"token operator\">*<\/span> <span class=\"token number\">1<\/span><span class=\"token variable\">))<\/span><\/span><br \/>\n<span class=\"token assign-left variable\">infer_ppo_max_token_len<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token variable\"><span class=\"token variable\">$((<\/span><span class=\"token punctuation\">(<\/span>max_prompt_length <span class=\"token operator\">&#043;<\/span> max_response_length<span class=\"token punctuation\">)<\/span> <span class=\"token operator\">*<\/span> <span class=\"token number\">1<\/span><span class=\"token variable\">))<\/span><\/span><br \/>\n<span class=\"token assign-left variable\">offload<\/span><span class=\"token operator\">&#061;<\/span>true<br \/>\n<span class=\"token assign-left variable\">gen_tp<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">2<\/span><br \/>\n<span class=\"token assign-left variable\">entropy_checkpointing<\/span><span class=\"token operator\">&#061;<\/span>true <span class=\"token comment\"># This enables entropy recomputation specifically for the entropy calculation, lowering memory usage during training.<\/span><\/p>\n<p><span class=\"token comment\"># &#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;- train\/val data preparation &#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;<\/span><br \/>\n<span class=\"token comment\"># if [ &#034;$first_time_dataset_prep&#034; &#061; true ]; then<\/span><br \/>\n<span class=\"token comment\">#     echo &#034;Preprocessing GSM8K dataset&#8230;&#034;<\/span><br \/>\n<span class=\"token comment\">#     python examples\/data_preprocess\/gsm8k.py &#8211;local_save_dir \/data01\/huawei-2025\/rl_data\/gsm8k\/data_later &#8211;local_dataset_path \/data01\/huawei-2025\/rl_data\/gsm8k\/<\/span><br \/>\n<span class=\"token comment\"># fi<\/span><\/p>\n<p><span class=\"token assign-left variable\">gsm8k_train_path<\/span><span class=\"token operator\">&#061;<\/span>xx\/data\/post_gsm8k\/train.parquet<br \/>\n<span class=\"token assign-left variable\">gsm8k_test_path<\/span><span class=\"token operator\">&#061;<\/span>xx\/data\/post_gsm8k\/test.parquet<\/p>\n<p><span class=\"token comment\"># set the paths<\/span><br \/>\n<span class=\"token assign-left variable\">train_files<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;[&#039;<span class=\"token variable\">$gsm8k_train_path<\/span>&#039;]&#034;<\/span><br \/>\n<span class=\"token assign-left variable\">test_files<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;[&#039;<span class=\"token variable\">$gsm8k_test_path<\/span>&#039;]&#034;<\/span><br \/>\n<span class=\"token comment\">#! \u4fee\u6539filter_overlong_prompts false<\/span><br \/>\npython3 -m verl.trainer.main_ppo <span class=\"token punctuation\">\\\\<\/span><br \/>\n    algorithm.adv_estimator<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${adv_estimator}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.policy_loss.loss_mode<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${loss_mode}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    data.train_files<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;<span class=\"token variable\">${train_files}<\/span>&#034;<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    data.val_files<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;<span class=\"token variable\">${test_files}<\/span>&#034;<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    data.shuffle<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">$shuffle_dataset<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    data.prompt_key<span class=\"token operator\">&#061;<\/span>prompt <span class=\"token punctuation\">\\\\<\/span><br \/>\n    data.truncation<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#039;error&#039;<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    data.filter_overlong_prompts<span class=\"token operator\">&#061;<\/span>true <span class=\"token punctuation\">\\\\<\/span><br \/>\n    data.return_raw_chat<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${return_raw_chat}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    data.train_batch_size<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${train_batch_size}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    data.max_prompt_length<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${max_prompt_length}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    data.max_response_length<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${max_response_length}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.n<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${n_resp_per_prompt}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    algorithm.use_kl_in_reward<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${use_kl_in_reward}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    algorithm.kl_ctrl.kl_coef<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${kl_coef}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.use_kl_loss<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${use_kl_loss}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.kl_loss_coef<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${kl_loss_coef}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.clip_ratio_low<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${clip_ratio_low}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.clip_ratio_high<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${clip_ratio_high}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.model.use_remove_padding<span class=\"token operator\">&#061;<\/span>true <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.use_dynamic_bsz<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${use_dynamic_bsz}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.ref.log_prob_use_dynamic_bsz<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${use_dynamic_bsz}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.log_prob_use_dynamic_bsz<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${use_dynamic_bsz}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.ppo_max_token_len_per_gpu<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${actor_ppo_max_token_len}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.ref.log_prob_max_token_len_per_gpu<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${infer_ppo_max_token_len}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.log_prob_max_token_len_per_gpu<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${infer_ppo_max_token_len}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.name<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${rollout_engine}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.mode<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${rollout_mode}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.model.path<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;<span class=\"token variable\">${MODEL_PATH}<\/span>&#034;<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.model.enable_gradient_checkpointing<span class=\"token operator\">&#061;<\/span>true <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.optim.lr<span class=\"token operator\">&#061;<\/span>1e-6 <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.optim.lr_warmup_steps_ratio<span class=\"token operator\">&#061;<\/span><span class=\"token number\">0.05<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.optim.weight_decay<span class=\"token operator\">&#061;<\/span><span class=\"token number\">0.1<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.ppo_mini_batch_size<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${ppo_mini_batch_size}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${ppo_micro_batch_size_per_gpu}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.fsdp_config.param_offload<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${offload}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.fsdp_config.optimizer_offload<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${offload}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.entropy_coeff<span class=\"token operator\">&#061;<\/span><span class=\"token number\">0<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.grad_clip<span class=\"token operator\">&#061;<\/span><span class=\"token number\">1.0<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.loss_agg_mode<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${loss_agg_mode}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.ulysses_sequence_parallel_size<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${sp_size}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.gpu_memory_utilization<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${gpu_memory_utilization}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.tensor_model_parallel_size<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${gen_tp}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.enable_chunked_prefill<span class=\"token operator\">&#061;<\/span>true <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.max_num_batched_tokens<span class=\"token operator\">&#061;<\/span><span class=\"token variable\"><span class=\"token variable\">$((<\/span>max_prompt_length <span class=\"token operator\">&#043;<\/span> max_response_length<span class=\"token variable\">))<\/span><\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.temperature<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${temperature}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.top_p<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${top_p}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.top_k<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${top_k}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.val_kwargs.temperature<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${temperature}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.val_kwargs.top_p<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${val_top_p}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.val_kwargs.top_k<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${top_k}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.val_kwargs.do_sample<span class=\"token operator\">&#061;<\/span>true <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.val_kwargs.n<span class=\"token operator\">&#061;<\/span><span class=\"token number\">1<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.ref.fsdp_config.param_offload<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${offload}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.ref.ulysses_sequence_parallel_size<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${sp_size}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.entropy_checkpointing<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${entropy_checkpointing}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    reward_model.reward_manager<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${reward_manager}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    &#043;reward_model.reward_kwargs.overlong_buffer_cfg.enable<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${enable_overlong_buffer}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    &#043;reward_model.reward_kwargs.overlong_buffer_cfg.len<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${overlong_buffer_len}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    &#043;reward_model.reward_kwargs.overlong_buffer_cfg.penalty_factor<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${overlong_penalty_factor}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    &#043;reward_model.reward_kwargs.overlong_buffer_cfg.log<span class=\"token operator\">&#061;<\/span>false <span class=\"token punctuation\">\\\\<\/span><br \/>\n    &#043;reward_model.reward_kwargs.max_resp_len<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${max_response_length}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.logger<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#039;[&#034;console&#034;]&#039;<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.enforce_eager<span class=\"token operator\">&#061;<\/span>True <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.use_torch_compile<span class=\"token operator\">&#061;<\/span>False <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.project_name<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;<span class=\"token variable\">${project_name}<\/span>&#034;<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.experiment_name<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;<span class=\"token variable\">${exp_name}<\/span>&#034;<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.n_gpus_per_node<span class=\"token operator\">&#061;<\/span><span class=\"token number\">8<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.nnodes<span class=\"token operator\">&#061;<\/span><span class=\"token number\">1<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.val_before_train<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${val_before_train}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.test_freq<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${test_freq}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.save_freq<span class=\"token operator\">&#061;<\/span>-1 <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.total_epochs<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${total_epochs}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.total_training_steps<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${total_training_steps}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.default_local_dir<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;<span class=\"token variable\">${CKPTS_DIR}<\/span>&#034;<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.resume_mode<span class=\"token operator\">&#061;<\/span>auto <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.device<span class=\"token operator\">&#061;<\/span>npu <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.log_val_generations<span class=\"token operator\">&#061;<\/span><span class=\"token number\">2<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    <span class=\"token variable\">$&#064;<\/span> <\/p>\n<h5>\u8c03\u8bd5\u7ed3\u679c<\/h5>\n<p><img decoding=\"async\" src=\"https:\/\/www.wsisp.com\/helps\/wp-content\/uploads\/2026\/02\/20260226193355-69a0a0232a50c.png\" alt=\"\u5728\u8fd9\u91cc\u63d2\u5165\u56fe\u7247\u63cf\u8ff0\" \/><\/p>\n<p>\u7ed3\u8bba&#xff1a;\u66f2\u7ebf\u6b63\u5e38\u4e0a\u5347&#xff0c;\u4e0a\u5347\u8d8b\u52bf\u4e0e\u5b98\u65b9\u811a\u672c\u4e00\u81f4&#xff0c;\u8c03\u8bd5\u7ed3\u679c\u7b26\u5408\u8981\u6c42<\/p>\n<h4>\u8c03\u8bd5\u7528\u4f8b4&#xff1a;engineworker\u540e\u7aef\u8c03\u8bd5<\/h4>\n<h5>engineworker\u4f7f\u80fd\u65b9\u6cd5&#xff1a;<\/h5>\n<p>trainer<span class=\"token punctuation\">.<\/span>use_legacy_worker_impl<span class=\"token operator\">&#061;<\/span>disable \\\\<\/p>\n<h5>\u8c03\u8bd5\u811a\u672c<\/h5>\n<p><span class=\"token shebang important\">#!\/usr\/bin\/env bash<\/span><br \/>\n<span class=\"token builtin class-name\">set<\/span> -x<\/p>\n<p><span class=\"token function\">pkill<\/span> -9 python<br \/>\n<span class=\"token function\">ps<\/span> -ef <span class=\"token operator\">|<\/span> <span class=\"token function\">grep<\/span> <span class=\"token string\">&#034;python&#034;<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">grep<\/span> -v <span class=\"token function\">grep<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">awk<\/span> <span class=\"token string\">&#039;{print $2}&#039;<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">xargs<\/span> -t -i <span class=\"token function\">kill<\/span> -9 <span class=\"token punctuation\">{<\/span><span class=\"token punctuation\">}<\/span><br \/>\nray stop &#8211;force<br \/>\n<span class=\"token function\">pkill<\/span> -9 python<br \/>\n<span class=\"token function\">pkill<\/span> -9 torchrun<br \/>\n<span class=\"token function\">ps<\/span> -ef <span class=\"token operator\">|<\/span> <span class=\"token function\">grep<\/span> <span class=\"token string\">&#034;defaunct&#034;<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">grep<\/span> python <span class=\"token operator\">|<\/span><span class=\"token function\">awk<\/span> <span class=\"token string\">&#039;{print $3}&#039;<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">xargs<\/span> -t -i <span class=\"token function\">kill<\/span> -9 <span class=\"token punctuation\">{<\/span><span class=\"token punctuation\">}<\/span><br \/>\n<span class=\"token function\">ps<\/span> -ef <span class=\"token operator\">|<\/span> <span class=\"token function\">grep<\/span> <span class=\"token string\">&#034;defaunct&#034;<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">grep<\/span> torchrun <span class=\"token operator\">|<\/span><span class=\"token function\">awk<\/span> <span class=\"token string\">&#039;{print $3}&#039;<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">xargs<\/span> -t -i <span class=\"token function\">kill<\/span> -9 <span class=\"token punctuation\">{<\/span><span class=\"token punctuation\">}<\/span><br \/>\n<span class=\"token function\">ps<\/span> -ef <span class=\"token operator\">|<\/span> <span class=\"token function\">grep<\/span> -i python <span class=\"token operator\">|<\/span><span class=\"token function\">grep<\/span> -i <span class=\"token punctuation\">[<\/span>name<span class=\"token punctuation\">]<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">grep<\/span> -v <span class=\"token function\">grep<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">awk<\/span> <span class=\"token string\">&#039;{print $2}&#039;<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">xargs<\/span> -t -I <span class=\"token punctuation\">{<\/span><span class=\"token punctuation\">}<\/span> <span class=\"token function\">kill<\/span> -9 <span class=\"token punctuation\">{<\/span><span class=\"token punctuation\">}<\/span><br \/>\n<span class=\"token function\">ps<\/span> -ef <span class=\"token operator\">|<\/span> <span class=\"token function\">grep<\/span> -i torchrun <span class=\"token operator\">|<\/span><span class=\"token function\">grep<\/span> -i <span class=\"token punctuation\">[<\/span>name<span class=\"token punctuation\">]<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">grep<\/span> -v <span class=\"token function\">grep<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">awk<\/span> <span class=\"token string\">&#039;{print $2}&#039;<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">xargs<\/span> -t -I <span class=\"token punctuation\">{<\/span><span class=\"token punctuation\">}<\/span> <span class=\"token function\">kill<\/span> -9 <span class=\"token punctuation\">{<\/span><span class=\"token punctuation\">}<\/span><br \/>\n<span class=\"token function\">ps<\/span> -ef <span class=\"token operator\">|<\/span> <span class=\"token function\">grep<\/span> <span class=\"token string\">&#034;python&#034;<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">grep<\/span> -v <span class=\"token function\">grep<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">awk<\/span> <span class=\"token string\">&#039;{print $2}&#039;<\/span> <span class=\"token operator\">|<\/span><span class=\"token function\">xargs<\/span> -t -i <span class=\"token function\">kill<\/span> -9 <span class=\"token punctuation\">{<\/span><span class=\"token punctuation\">}<\/span><br \/>\n<span class=\"token comment\"># Set how many GPUs we actually have on this node.<\/span><br \/>\n<span class=\"token builtin class-name\">export<\/span> <span class=\"token assign-left variable\">GPUS_PER_NODE<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">8<\/span><\/p>\n<p><span class=\"token builtin class-name\">export<\/span> <span class=\"token assign-left variable\">NNODES<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">1<\/span><br \/>\n<span class=\"token builtin class-name\">export<\/span> <span class=\"token assign-left variable\">VLLM_ASCEND_ENABLE_NZ<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">0<\/span><\/p>\n<p><span class=\"token builtin class-name\">echo<\/span> <span class=\"token string\">&#034;Using <span class=\"token variable\">$NNODES<\/span> nodes for training&#8230;&#034;<\/span><\/p>\n<p><span class=\"token comment\">#export ASCEND_LAUNCH_BLOCKING&#061;1 <\/span><br \/>\n<span class=\"token comment\"># &#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;- Setup xp params &#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;<\/span><br \/>\n<span class=\"token assign-left variable\">project_name<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#039;RL-GSPO&#039;<\/span><\/p>\n<p><span class=\"token assign-left variable\">adv_estimator<\/span><span class=\"token operator\">&#061;<\/span>grpo<br \/>\n<span class=\"token assign-left variable\">loss_mode<\/span><span class=\"token operator\">&#061;<\/span>gspo<br \/>\n<span class=\"token assign-left variable\">loss_agg_mode<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;seq-mean-token-mean&#034;<\/span><br \/>\n<span class=\"token assign-left variable\">MODEL_PATH<\/span><span class=\"token operator\">&#061;<\/span>xx\/weights\/Qwen2.5-3B-Instruct<br \/>\n<span class=\"token assign-left variable\">offload<\/span><span class=\"token operator\">&#061;<\/span>false <span class=\"token comment\"># it&#039;s a small model, offloading will just slow-down training<\/span><br \/>\n<span class=\"token assign-left variable\">rollout_engine<\/span><span class=\"token operator\">&#061;<\/span>vllm<br \/>\n<span class=\"token assign-left variable\">rollout_mode<\/span><span class=\"token operator\">&#061;<\/span>async<br \/>\n<span class=\"token assign-left variable\">return_raw_chat<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;True&#034;<\/span><br \/>\n<span class=\"token keyword\">if<\/span> <span class=\"token punctuation\">[<\/span> <span class=\"token string\">&#034;<span class=\"token variable\">$rollout_engine<\/span>&#034;<\/span> <span class=\"token operator\">&#061;<\/span> <span class=\"token string\">&#034;vllm&#034;<\/span> <span class=\"token punctuation\">]<\/span><span class=\"token punctuation\">;<\/span> <span class=\"token keyword\">then<\/span><br \/>\n    <span class=\"token builtin class-name\">export<\/span> <span class=\"token assign-left variable\">VLLM_USE_V1<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">1<\/span><br \/>\n<span class=\"token keyword\">fi<\/span><br \/>\n<span class=\"token assign-left variable\">gpu_memory_utilization<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">0.6<\/span><br \/>\n<span class=\"token assign-left variable\">reward_manager<\/span><span class=\"token operator\">&#061;<\/span>dapo<br \/>\n<span class=\"token assign-left variable\">adv_estimator<\/span><span class=\"token operator\">&#061;<\/span>grpo<br \/>\n<span class=\"token assign-left variable\">shuffle_dataset<\/span><span class=\"token operator\">&#061;<\/span>true<br \/>\n<span class=\"token assign-left variable\">first_time_dataset_prep<\/span><span class=\"token operator\">&#061;<\/span>true <span class=\"token comment\"># prepare dataset<\/span><\/p>\n<p><span class=\"token assign-left variable\">test_freq<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">10<\/span><br \/>\n<span class=\"token assign-left variable\">save_freq<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">10<\/span><br \/>\n<span class=\"token assign-left variable\">total_epochs<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">10<\/span><br \/>\n<span class=\"token assign-left variable\">total_training_steps<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">500<\/span><br \/>\n<span class=\"token assign-left variable\">val_before_train<\/span><span class=\"token operator\">&#061;<\/span>false<\/p>\n<p><span class=\"token assign-left variable\">use_kl_in_reward<\/span><span class=\"token operator\">&#061;<\/span>false<br \/>\n<span class=\"token assign-left variable\">kl_coef<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">0.0<\/span><br \/>\n<span class=\"token assign-left variable\">use_kl_loss<\/span><span class=\"token operator\">&#061;<\/span>false<br \/>\n<span class=\"token assign-left variable\">kl_loss_coef<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">0.0<\/span><\/p>\n<p><span class=\"token assign-left variable\">clip_ratio_low<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">0.0003<\/span> <span class=\"token comment\"># as recommended by the paper, see Sec. 5.1<\/span><br \/>\n<span class=\"token assign-left variable\">clip_ratio_high<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">0.0004<\/span> <span class=\"token comment\"># as recommended by the paper, see Sec. 5.1<\/span><br \/>\n<span class=\"token assign-left variable\">train_batch_size<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">512<\/span><br \/>\n<span class=\"token assign-left variable\">ppo_mini_batch_size<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">128<\/span> <span class=\"token comment\"># maintain 4 mini-batches as recommended by the paper, see Sec. 5.1<\/span><br \/>\n<span class=\"token assign-left variable\">ppo_micro_batch_size_per_gpu<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">8<\/span> <span class=\"token comment\"># setup depending on your GPU memory<\/span><br \/>\n<span class=\"token assign-left variable\">n_resp_per_prompt<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">16<\/span><\/p>\n<p><span class=\"token assign-left variable\">max_prompt_length<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token variable\"><span class=\"token variable\">$((<\/span><span class=\"token number\">1024<\/span> <span class=\"token operator\">*<\/span> <span class=\"token number\">2<\/span><span class=\"token variable\">))<\/span><\/span><br \/>\n<span class=\"token assign-left variable\">max_response_length<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token variable\"><span class=\"token variable\">$((<\/span><span class=\"token number\">1024<\/span> <span class=\"token operator\">*<\/span> <span class=\"token number\">8<\/span><span class=\"token variable\">))<\/span><\/span><br \/>\n<span class=\"token comment\"># dapo reward manager params<\/span><br \/>\n<span class=\"token assign-left variable\">enable_overlong_buffer<\/span><span class=\"token operator\">&#061;<\/span>false <span class=\"token comment\"># true<\/span><br \/>\n<span class=\"token assign-left variable\">overlong_buffer_len<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token variable\"><span class=\"token variable\">$((<\/span><span class=\"token number\">1024<\/span> <span class=\"token operator\">*<\/span> <span class=\"token number\">4<\/span><span class=\"token variable\">))<\/span><\/span><br \/>\n<span class=\"token assign-left variable\">overlong_penalty_factor<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">1.0<\/span><\/p>\n<p><span class=\"token comment\"># Paths and namings<\/span><br \/>\n<span class=\"token assign-left variable\">SFT_MODEL<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token variable\"><span class=\"token variable\">$(<\/span><span class=\"token function\">basename<\/span> $MODEL_PATH<span class=\"token variable\">)<\/span><\/span><br \/>\n<span class=\"token assign-left variable\">exp_name<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;<span class=\"token variable\">${loss_mode}<\/span>-epslow-<span class=\"token variable\">${clip_ratio_low}<\/span>-epshigh-<span class=\"token variable\">${clip_ratio_high}<\/span>&#8211;<span class=\"token variable\">${SFT_MODEL}<\/span>-RL&#034;<\/span><br \/>\n<span class=\"token assign-left variable\">CKPTS_DIR<\/span><span class=\"token operator\">&#061;<\/span>\/rl\/checkpoints\/experimental\/4b\/<span class=\"token variable\">${loss_mode}<\/span>\/<span class=\"token variable\">${exp_name}<\/span><\/p>\n<p><span class=\"token comment\"># Sampling params at rollouts<\/span><br \/>\n<span class=\"token assign-left variable\">temperature<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">1.0<\/span><br \/>\n<span class=\"token assign-left variable\">top_p<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">1.0<\/span><br \/>\n<span class=\"token assign-left variable\">top_k<\/span><span class=\"token operator\">&#061;<\/span>-1 <span class=\"token comment\"># 0 for HF rollout, -1 for vLLM rollout<\/span><br \/>\n<span class=\"token assign-left variable\">val_top_p<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">0.7<\/span><\/p>\n<p><span class=\"token comment\"># Performance Related Parameter<\/span><br \/>\n<span class=\"token assign-left variable\">sp_size<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">4<\/span><br \/>\n<span class=\"token assign-left variable\">use_dynamic_bsz<\/span><span class=\"token operator\">&#061;<\/span>true<br \/>\n<span class=\"token assign-left variable\">actor_ppo_max_token_len<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token variable\"><span class=\"token variable\">$((<\/span><span class=\"token punctuation\">(<\/span>max_prompt_length <span class=\"token operator\">&#043;<\/span> max_response_length<span class=\"token punctuation\">)<\/span> <span class=\"token operator\">*<\/span> <span class=\"token number\">1<\/span><span class=\"token variable\">))<\/span><\/span><br \/>\n<span class=\"token assign-left variable\">infer_ppo_max_token_len<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token variable\"><span class=\"token variable\">$((<\/span><span class=\"token punctuation\">(<\/span>max_prompt_length <span class=\"token operator\">&#043;<\/span> max_response_length<span class=\"token punctuation\">)<\/span> <span class=\"token operator\">*<\/span> <span class=\"token number\">1<\/span><span class=\"token variable\">))<\/span><\/span><br \/>\n<span class=\"token assign-left variable\">offload<\/span><span class=\"token operator\">&#061;<\/span>true<br \/>\n<span class=\"token assign-left variable\">gen_tp<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token number\">2<\/span><br \/>\n<span class=\"token assign-left variable\">entropy_checkpointing<\/span><span class=\"token operator\">&#061;<\/span>true <span class=\"token comment\"># This enables entropy recomputation specifically for the entropy calculation, lowering memory usage during training.<\/span><\/p>\n<p><span class=\"token comment\"># &#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;- train\/val data preparation &#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;<\/span><br \/>\n<span class=\"token comment\"># if [ &#034;$first_time_dataset_prep&#034; &#061; true ]; then<\/span><br \/>\n<span class=\"token comment\">#     echo &#034;Preprocessing GSM8K dataset&#8230;&#034;<\/span><br \/>\n<span class=\"token comment\">#     python examples\/data_preprocess\/gsm8k.py &#8211;local_save_dir \/xx\/rl_data\/gsm8k\/data_later &#8211;local_dataset_path xx\/rl_data\/gsm8k\/<\/span><br \/>\n<span class=\"token comment\"># fi<\/span><\/p>\n<p><span class=\"token assign-left variable\">gsm8k_train_path<\/span><span class=\"token operator\">&#061;<\/span>xx\/data\/post_gsm8k\/train.parquet<br \/>\n<span class=\"token assign-left variable\">gsm8k_test_path<\/span><span class=\"token operator\">&#061;<\/span>xx\/data\/post_gsm8k\/test.parquet<\/p>\n<p><span class=\"token comment\"># set the paths<\/span><br \/>\n<span class=\"token assign-left variable\">train_files<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;[&#039;<span class=\"token variable\">$gsm8k_train_path<\/span>&#039;]&#034;<\/span><br \/>\n<span class=\"token assign-left variable\">test_files<\/span><span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;[&#039;<span class=\"token variable\">$gsm8k_test_path<\/span>&#039;]&#034;<\/span><br \/>\n<span class=\"token comment\">#! \u4fee\u6539filter_overlong_prompts false<\/span><br \/>\npython3 -m verl.trainer.main_ppo <span class=\"token punctuation\">\\\\<\/span><br \/>\n    algorithm.adv_estimator<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${adv_estimator}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.policy_loss.loss_mode<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${loss_mode}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    data.train_files<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;<span class=\"token variable\">${train_files}<\/span>&#034;<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    data.val_files<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;<span class=\"token variable\">${test_files}<\/span>&#034;<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    data.shuffle<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">$shuffle_dataset<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    data.prompt_key<span class=\"token operator\">&#061;<\/span>prompt <span class=\"token punctuation\">\\\\<\/span><br \/>\n    data.truncation<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#039;error&#039;<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    data.filter_overlong_prompts<span class=\"token operator\">&#061;<\/span>false <span class=\"token punctuation\">\\\\<\/span><br \/>\n    data.return_raw_chat<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${return_raw_chat}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    data.train_batch_size<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${train_batch_size}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    data.max_prompt_length<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${max_prompt_length}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    data.max_response_length<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${max_response_length}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.n<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${n_resp_per_prompt}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    algorithm.use_kl_in_reward<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${use_kl_in_reward}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    algorithm.kl_ctrl.kl_coef<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${kl_coef}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.use_kl_loss<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${use_kl_loss}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.kl_loss_coef<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${kl_loss_coef}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.clip_ratio_low<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${clip_ratio_low}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.clip_ratio_high<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${clip_ratio_high}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.model.use_remove_padding<span class=\"token operator\">&#061;<\/span>true <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.use_dynamic_bsz<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${use_dynamic_bsz}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.ref.log_prob_use_dynamic_bsz<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${use_dynamic_bsz}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.log_prob_use_dynamic_bsz<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${use_dynamic_bsz}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.ppo_max_token_len_per_gpu<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${actor_ppo_max_token_len}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.ref.log_prob_max_token_len_per_gpu<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${infer_ppo_max_token_len}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.log_prob_max_token_len_per_gpu<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${infer_ppo_max_token_len}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.name<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${rollout_engine}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.mode<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${rollout_mode}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.model.path<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;<span class=\"token variable\">${MODEL_PATH}<\/span>&#034;<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.model.enable_gradient_checkpointing<span class=\"token operator\">&#061;<\/span>true <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.optim.lr<span class=\"token operator\">&#061;<\/span>1e-6 <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.optim.lr_warmup_steps_ratio<span class=\"token operator\">&#061;<\/span><span class=\"token number\">0.05<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.optim.weight_decay<span class=\"token operator\">&#061;<\/span><span class=\"token number\">0.1<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.ppo_mini_batch_size<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${ppo_mini_batch_size}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${ppo_micro_batch_size_per_gpu}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.fsdp_config.param_offload<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${offload}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.fsdp_config.optimizer_offload<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${offload}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.entropy_coeff<span class=\"token operator\">&#061;<\/span><span class=\"token number\">0<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.grad_clip<span class=\"token operator\">&#061;<\/span><span class=\"token number\">1.0<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.loss_agg_mode<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${loss_agg_mode}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.ulysses_sequence_parallel_size<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${sp_size}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.gpu_memory_utilization<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${gpu_memory_utilization}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.tensor_model_parallel_size<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${gen_tp}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.enable_chunked_prefill<span class=\"token operator\">&#061;<\/span>true <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.max_num_batched_tokens<span class=\"token operator\">&#061;<\/span><span class=\"token variable\"><span class=\"token variable\">$((<\/span>max_prompt_length <span class=\"token operator\">&#043;<\/span> max_response_length<span class=\"token variable\">))<\/span><\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.temperature<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${temperature}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.top_p<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${top_p}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.top_k<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${top_k}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.val_kwargs.temperature<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${temperature}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.val_kwargs.top_p<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${val_top_p}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.val_kwargs.top_k<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${top_k}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.val_kwargs.do_sample<span class=\"token operator\">&#061;<\/span>true <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.val_kwargs.n<span class=\"token operator\">&#061;<\/span><span class=\"token number\">1<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.ref.fsdp_config.param_offload<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${offload}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.ref.ulysses_sequence_parallel_size<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${sp_size}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.entropy_checkpointing<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${entropy_checkpointing}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    reward_model.reward_manager<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${reward_manager}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    &#043;reward_model.reward_kwargs.overlong_buffer_cfg.enable<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${enable_overlong_buffer}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    &#043;reward_model.reward_kwargs.overlong_buffer_cfg.len<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${overlong_buffer_len}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    &#043;reward_model.reward_kwargs.overlong_buffer_cfg.penalty_factor<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${overlong_penalty_factor}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    &#043;reward_model.reward_kwargs.overlong_buffer_cfg.log<span class=\"token operator\">&#061;<\/span>false <span class=\"token punctuation\">\\\\<\/span><br \/>\n    &#043;reward_model.reward_kwargs.max_resp_len<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${max_response_length}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.logger<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#039;[&#034;console&#034;]&#039;<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.rollout.enforce_eager<span class=\"token operator\">&#061;<\/span>True <span class=\"token punctuation\">\\\\<\/span><br \/>\n    actor_rollout_ref.actor.use_torch_compile<span class=\"token operator\">&#061;<\/span>False <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.project_name<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;<span class=\"token variable\">${project_name}<\/span>&#034;<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.experiment_name<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;<span class=\"token variable\">${exp_name}<\/span>&#034;<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.n_gpus_per_node<span class=\"token operator\">&#061;<\/span><span class=\"token number\">8<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.nnodes<span class=\"token operator\">&#061;<\/span><span class=\"token number\">1<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.val_before_train<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${val_before_train}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.test_freq<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${test_freq}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.save_freq<span class=\"token operator\">&#061;<\/span>-1 <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.total_epochs<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${total_epochs}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.total_training_steps<span class=\"token operator\">&#061;<\/span><span class=\"token variable\">${total_training_steps}<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.use_legacy_worker_impl<span class=\"token operator\">&#061;<\/span>disable <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.default_local_dir<span class=\"token operator\">&#061;<\/span><span class=\"token string\">&#034;<span class=\"token variable\">${CKPTS_DIR}<\/span>&#034;<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.resume_mode<span class=\"token operator\">&#061;<\/span>auto <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.device<span class=\"token operator\">&#061;<\/span>npu <span class=\"token punctuation\">\\\\<\/span><br \/>\n    trainer.log_val_generations<span class=\"token operator\">&#061;<\/span><span class=\"token number\">2<\/span> <span class=\"token punctuation\">\\\\<\/span><br \/>\n    <span class=\"token variable\">$&#064;<\/span> <\/p>\n<h5>\u8c03\u8bd5\u7ed3\u679c<\/h5>\n<p><img decoding=\"async\" src=\"https:\/\/www.wsisp.com\/helps\/wp-content\/uploads\/2026\/02\/20260226193355-69a0a0236ebcf.png\" alt=\"\u5728\u8fd9\u91cc\u63d2\u5165\u56fe\u7247\u63cf\u8ff0\" \/><\/p>\n<p>\u7ed3\u8bba&#xff1a;reward\u66f2\u7ebf\u6b63\u5e38\u4e0a\u5347&#xff0c;\u8c03\u8bd5\u7ed3\u679c\u7b26\u5408\u8981\u6c42<\/p>\n<h2>\u603b\u7ed3<\/h2>\n<li>GSPO\u57fa\u4e8eGRPO\u7b97\u6cd5&#xff0c;\u4ec5\u4fee\u6539\u635f\u5931\u51fd\u6570\u8ba1\u7b97\u90e8\u5206&#xff0c;\u8be5\u7b97\u6cd5\u5b9e\u73b0\u4e0d\u4f9d\u8d56\u786c\u4ef6\u5e95\u5c42<\/li>\n<li>\u4e0d\u9002\u7528dynamic_bsz\u7684\u65f6\u5019&#xff0c;\u9700\u8981\u914d\u7f6emicro_batch_size or use_flash_attn&#061;True in config<\/li>\n<li>\u539f\u59cb\u811a\u672c\u57fa\u4e8eGPU\u8bad\u7ec3&#xff0c;\u5176\u5185\u5b58\u5f80\u5f80\u6bd4NPU\u66f4\u5927&#xff0c;\u4e3a\u907f\u514dOOM&#xff0c;\u53ef\u4ee5\u8c03\u6574gbs\u914d\u7f6e&#xff0c;\u5e76\u6839\u636eseq&#xff0c;\u6a21\u578b\u7b49\u52a8\u6001\u8c03\u6574gpu_utils_memory\u503c<\/li>\n<li>\u5bf9\u5e94GSPO\u7684\u751f\u6001pr&#xff1a;https:\/\/github.com\/volcengine\/verl\/pull\/4405<\/li>\n<h2>\u5e38\u89c1\u95ee\u9898\u4e0e\u89e3\u51b3\u65b9\u6848<\/h2>\n<h3>\u95ee\u98981&#xff1a;importlib.metadata.PackageNotFoundError:Npackage metadata was found for flash attnith overrides<\/h3>\n<p>\u200b\u5b9a\u4f4d&#xff1a;transformer\u7684npu\u7248\u672cpatch\u672a\u6b63\u786e\u4f7f\u80fd&#xff0c;\u53ef\u4fee\u6539\u5982\u4e0b\u90e8\u5206\u4ee3\u7801\/\u200b\u200b\u4f7f\u80fd4.52.4\u62164.57.3\u7684transformer\u7248\u672c\u4e5f\u53ef\u4ee5\u89e3\u51b3**** <img decoding=\"async\" src=\"https:\/\/www.wsisp.com\/helps\/wp-content\/uploads\/2026\/02\/20260226193355-69a0a023b8ba0.png\" alt=\"\u5728\u8fd9\u91cc\u63d2\u5165\u56fe\u7247\u63cf\u8ff0\" \/><\/p>\n<p>\u5728\u4ee3\u7801\u5b9a\u4f4d\u8fc7\u7a0b\u4e2d\u53d1\u73b0\u5b98\u65b9bug&#xff1a;https:\/\/github.com\/volcengine\/verl\/pull\/3978&#xff0c;\u73b0\u5df2\u5408\u5165<\/p>\n<h3>\u95ee\u98982&#xff1a;raise e.remove_dynamo_frames() from None # see TORCHDYNAMO_VERBOSE&#061;1<\/h3>\n<p>File \u201c\/opt\/pyvenv\/lib\/python3.10\/site-packages\/torch\/_inductor\/compile_fx.py\u201d, line 760, in _compile_fx_inner<\/p>\n<p>\u5b9a\u4f4d&#xff1a;\u8d70\u5230\u4e86\u56fe\u6a21\u5f0f <img decoding=\"async\" src=\"https:\/\/www.wsisp.com\/helps\/wp-content\/uploads\/2026\/02\/20260226193356-69a0a0245c657.png\" alt=\"\u5728\u8fd9\u91cc\u63d2\u5165\u56fe\u7247\u63cf\u8ff0\" \/> <img decoding=\"async\" src=\"https:\/\/www.wsisp.com\/helps\/wp-content\/uploads\/2026\/02\/20260226193357-69a0a025674f5.png\" alt=\"\u5728\u8fd9\u91cc\u63d2\u5165\u56fe\u7247\u63cf\u8ff0\" \/><\/p>\n<p>\u6240\u4ee5\u589e\u52a0\u53c2\u6570 actor_rollout_ref.actor.use_torch_compile&#061;False \\\\<\/p>\n<p>\u95ee\u9898\u89e3\u51b3\u540e&#xff0c;\u62c9\u8d77\u8bad\u7ec3 <img decoding=\"async\" src=\"https:\/\/www.wsisp.com\/helps\/wp-content\/uploads\/2026\/02\/20260226193357-69a0a0259833b.png\" alt=\"\u5728\u8fd9\u91cc\u63d2\u5165\u56fe\u7247\u63cf\u8ff0\" \/><\/p>\n<h3>\u95ee\u98983&#xff1a;\u5185\u5b58\u5206\u914d\u5931\u8d25<\/h3>\n<p><img decoding=\"async\" src=\"https:\/\/www.wsisp.com\/helps\/wp-content\/uploads\/2026\/02\/20260226193358-69a0a02687482.png\" alt=\"\u5728\u8fd9\u91cc\u63d2\u5165\u56fe\u7247\u63cf\u8ff0\" \/><\/p>\n<p>\u8c03\u5c0fgbs\u914d\u7f6e&#xff0c;\u4fee\u6539gpu_utils_memory\u503c&#xff0c;\u8fd9\u4e2a\u8981\u6839\u636eseq&#xff0c;\u6a21\u578b\u52a8\u6001\u8c03\u6574&#xff0c;\u5426\u5219\u5bb9\u6613\u5b58\u5728\u788e\u7247\u5f20\u91cfOOM<\/p>\n<h3>\u95ee\u98984&#xff1a;RuntimeError: Please set micro_batch_size or set use_flash_attn&#061;True in config.<\/h3>\n<p><img decoding=\"async\" src=\"https:\/\/www.wsisp.com\/helps\/wp-content\/uploads\/2026\/02\/20260226193400-69a0a028d45f2.png\" alt=\"\u5728\u8fd9\u91cc\u63d2\u5165\u56fe\u7247\u63cf\u8ff0\" \/><\/p>\n<p>\u89e3\u51b3\u65b9\u6848&#xff1a;<\/p>\n<p>rain_prompt_bsz&#061;32<br \/>\nn_resp_per_prompt&#061;8<br \/>\ntrain_prompt_mini_bsz&#061;8<\/p>\n<h3>\u95ee\u98985 \u4f18\u5316\u5668\u66f4\u65b0\u9636\u6bb5OOM<\/h3>\n<p><img decoding=\"async\" src=\"https:\/\/www.wsisp.com\/helps\/wp-content\/uploads\/2026\/02\/20260226193402-69a0a02ae026c.png\" alt=\"\u5728\u8fd9\u91cc\u63d2\u5165\u56fe\u7247\u63cf\u8ff0\" \/><\/p>\n<p>\u4fee\u6539\u8bad\u7ec3\u9636\u6bb5\u7684\u7b56\u7565&#xff0c;\u4f7f\u7528\u5e8f\u5217\u5e76\u884c<\/p>\n<p>&#043;actor_rollout_ref.actor.megatron.override_transformer_config.use_flash_attn&#061;True \\\\<\/p>\n<h3>\u95ee\u98986.ValueError: num_query_groups (4) must be a multiple of tensor_model_parallel_size (8).<\/h3>\n<p><img decoding=\"async\" src=\"https:\/\/www.wsisp.com\/helps\/wp-content\/uploads\/2026\/02\/20260226193405-69a0a02d83ee3.png\" alt=\"\u5728\u8fd9\u91cc\u63d2\u5165\u56fe\u7247\u63cf\u8ff0\" \/><\/p>\n<p>\u6a21\u578b\u53c2\u6570\u9650\u5236<\/p>\n<p>num_query_groups (4)\u9700\u8981\u80fd\u88abTP\u5207\u5206&#xff0c;\u5207\u6362\u8bad\u7ec3\u5207\u5206\u7b56\u7565<\/p>\n<p>\u4fee\u6539\u540e&#xff0c;\u62c9\u8d77megaton\u540e\u7aef\u7684\u4ee3\u7801<\/p>\n<p><img decoding=\"async\" src=\"https:\/\/www.wsisp.com\/helps\/wp-content\/uploads\/2026\/02\/20260226193407-69a0a02fd3fd9.png\" alt=\"\u5728\u8fd9\u91cc\u63d2\u5165\u56fe\u7247\u63cf\u8ff0\" \/><\/p>\n<h3>\u95ee\u98987&#xff1a;\u57fa\u4e8eDAPO\u811a\u672c\u4fee\u6539GSPO\u7b97\u6cd5\u7684\u65f6\u5019&#xff0c;\u53d1\u751f\u62a5\u9519Could not override \u2018algorithm. filter_groups. enable\u2019.<\/h3>\n<p>\u539f\u56e0&#xff1a;GSPO\u6ca1\u6709\u8fd9\u4e2afilter_groups\u5c5e\u6027&#xff0c;\u811a\u672c\u6539\u52a8\u758f\u5ffd\u4fee\u6539\u5373\u53ef <img decoding=\"async\" src=\"https:\/\/www.wsisp.com\/helps\/wp-content\/uploads\/2026\/02\/20260226193409-69a0a031d9748.png\" alt=\"\u5728\u8fd9\u91cc\u63d2\u5165\u56fe\u7247\u63cf\u8ff0\" \/><\/p>\n","protected":false},"excerpt":{"rendered":"<p>\u4f5c\u8005&#xff1a;\u6607\u817e\u5b9e\u6218\u6d3e \u77e5\u8bc6\u5730\u56fe&#xff1a;\u5f3a\u5316\u5b66\u4e60\u77e5\u8bc6\u5730\u56fe<br \/>\n\u80cc\u666f\u4e0e\u610f\u4e49<br \/>\n\u672c\u7bc7\u6587\u7ae0\u4e3b\u8981\u57fa\u4e8eVeRL\u6846\u67b6\u4e0a\u63d0\u51fa\u7684GSPO\u7b97\u6cd5\u5728\u6607\u817eNPU\u4e0a\u8fdb\u884c\u5b9e\u8df5\u90e8\u7f72&#xff0c;\u5e76\u4e3a\u5927\u5bb6\u7b80\u5355\u4ecb\u7ecdGRPO\u7b97\u6cd5\u601d\u60f3\u4ee5\u53ca\u5176\u548cGSPO\u7b97\u6cd5\u7279\u6027\u5dee\u5f02\u3002<br \/>\n\u7b97\u6cd5\u539f\u7406<br \/>\n\u8bba\u6587\u5730\u5740 GRPO&#xff1a;https:\/\/arxiv.org\/abs\/2402.03300 GSPO&#xff1a;https:\/\/arxiv.org\/abs\/2507.18071<br \/>\nGRPO&#xff1a;\u7fa4\u7ec4\u76f8<\/p>\n","protected":false},"author":2,"featured_media":78312,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[81,50,207,427],"topic":[],"class_list":["post-78332","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-server","tag-python","tag-50","tag-207","tag-427"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v20.3 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>\u57fa\u4e8eVeRL\u6846\u67b6\u7684GSPO\u7b97\u6cd5\u5728Atlas 800T A2\u670d\u52a1\u5668\u4e0a\u5b9e\u8df5 - \u7f51\u7855\u4e92\u8054\u5e2e\u52a9\u4e2d\u5fc3<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/www.wsisp.com\/helps\/78332.html\" \/>\n<meta property=\"og:locale\" content=\"zh_CN\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"\u57fa\u4e8eVeRL\u6846\u67b6\u7684GSPO\u7b97\u6cd5\u5728Atlas 800T A2\u670d\u52a1\u5668\u4e0a\u5b9e\u8df5 - \u7f51\u7855\u4e92\u8054\u5e2e\u52a9\u4e2d\u5fc3\" \/>\n<meta property=\"og:description\" content=\"\u4f5c\u8005&#xff1a;\u6607\u817e\u5b9e\u6218\u6d3e \u77e5\u8bc6\u5730\u56fe&#xff1a;\u5f3a\u5316\u5b66\u4e60\u77e5\u8bc6\u5730\u56fe \u80cc\u666f\u4e0e\u610f\u4e49 \u672c\u7bc7\u6587\u7ae0\u4e3b\u8981\u57fa\u4e8eVeRL\u6846\u67b6\u4e0a\u63d0\u51fa\u7684GSPO\u7b97\u6cd5\u5728\u6607\u817eNPU\u4e0a\u8fdb\u884c\u5b9e\u8df5\u90e8\u7f72&#xff0c;\u5e76\u4e3a\u5927\u5bb6\u7b80\u5355\u4ecb\u7ecdGRPO\u7b97\u6cd5\u601d\u60f3\u4ee5\u53ca\u5176\u548cGSPO\u7b97\u6cd5\u7279\u6027\u5dee\u5f02\u3002 \u7b97\u6cd5\u539f\u7406 \u8bba\u6587\u5730\u5740 GRPO&#xff1a;https:\/\/arxiv.org\/abs\/2402.03300 GSPO&#xff1a;https:\/\/arxiv.org\/abs\/2507.18071 GRPO&#xff1a;\u7fa4\u7ec4\u76f8\" \/>\n<meta property=\"og:url\" content=\"https:\/\/www.wsisp.com\/helps\/78332.html\" \/>\n<meta property=\"og:site_name\" content=\"\u7f51\u7855\u4e92\u8054\u5e2e\u52a9\u4e2d\u5fc3\" \/>\n<meta property=\"article:published_time\" content=\"2026-02-26T19:34:11+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/www.wsisp.com\/helps\/wp-content\/uploads\/2026\/02\/20260226193350-69a0a01ed9355.png\" \/>\n<meta name=\"author\" content=\"admin\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"\u4f5c\u8005\" \/>\n\t<meta name=\"twitter:data1\" content=\"admin\" \/>\n\t<meta name=\"twitter:label2\" content=\"\u9884\u8ba1\u9605\u8bfb\u65f6\u95f4\" \/>\n\t<meta name=\"twitter:data2\" content=\"27 \u5206\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\/\/www.wsisp.com\/helps\/78332.html\",\"url\":\"https:\/\/www.wsisp.com\/helps\/78332.html\",\"name\":\"\u57fa\u4e8eVeRL\u6846\u67b6\u7684GSPO\u7b97\u6cd5\u5728Atlas 800T A2\u670d\u52a1\u5668\u4e0a\u5b9e\u8df5 - \u7f51\u7855\u4e92\u8054\u5e2e\u52a9\u4e2d\u5fc3\",\"isPartOf\":{\"@id\":\"https:\/\/www.wsisp.com\/helps\/#website\"},\"datePublished\":\"2026-02-26T19:34:11+00:00\",\"dateModified\":\"2026-02-26T19:34:11+00:00\",\"author\":{\"@id\":\"https:\/\/www.wsisp.com\/helps\/#\/schema\/person\/358e386c577a3ab51c4493330a20ad41\"},\"breadcrumb\":{\"@id\":\"https:\/\/www.wsisp.com\/helps\/78332.html#breadcrumb\"},\"inLanguage\":\"zh-Hans\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/www.wsisp.com\/helps\/78332.html\"]}]},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/www.wsisp.com\/helps\/78332.html#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"\u9996\u9875\",\"item\":\"https:\/\/www.wsisp.com\/helps\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"\u57fa\u4e8eVeRL\u6846\u67b6\u7684GSPO\u7b97\u6cd5\u5728Atlas 800T A2\u670d\u52a1\u5668\u4e0a\u5b9e\u8df5\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/www.wsisp.com\/helps\/#website\",\"url\":\"https:\/\/www.wsisp.com\/helps\/\",\"name\":\"\u7f51\u7855\u4e92\u8054\u5e2e\u52a9\u4e2d\u5fc3\",\"description\":\"\u9999\u6e2f\u670d\u52a1\u5668_\u9999\u6e2f\u4e91\u670d\u52a1\u5668\u8d44\u8baf_\u670d\u52a1\u5668\u5e2e\u52a9\u6587\u6863_\u670d\u52a1\u5668\u6559\u7a0b\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/www.wsisp.com\/helps\/?s={search_term_string}\"},\"query-input\":\"required name=search_term_string\"}],\"inLanguage\":\"zh-Hans\"},{\"@type\":\"Person\",\"@id\":\"https:\/\/www.wsisp.com\/helps\/#\/schema\/person\/358e386c577a3ab51c4493330a20ad41\",\"name\":\"admin\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"zh-Hans\",\"@id\":\"https:\/\/www.wsisp.com\/helps\/#\/schema\/person\/image\/\",\"url\":\"https:\/\/gravatar.wp-china-yes.net\/avatar\/?s=96&d=mystery\",\"contentUrl\":\"https:\/\/gravatar.wp-china-yes.net\/avatar\/?s=96&d=mystery\",\"caption\":\"admin\"},\"sameAs\":[\"http:\/\/wp.wsisp.com\"],\"url\":\"https:\/\/www.wsisp.com\/helps\/author\/admin\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"\u57fa\u4e8eVeRL\u6846\u67b6\u7684GSPO\u7b97\u6cd5\u5728Atlas 800T A2\u670d\u52a1\u5668\u4e0a\u5b9e\u8df5 - \u7f51\u7855\u4e92\u8054\u5e2e\u52a9\u4e2d\u5fc3","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/www.wsisp.com\/helps\/78332.html","og_locale":"zh_CN","og_type":"article","og_title":"\u57fa\u4e8eVeRL\u6846\u67b6\u7684GSPO\u7b97\u6cd5\u5728Atlas 800T A2\u670d\u52a1\u5668\u4e0a\u5b9e\u8df5 - \u7f51\u7855\u4e92\u8054\u5e2e\u52a9\u4e2d\u5fc3","og_description":"\u4f5c\u8005&#xff1a;\u6607\u817e\u5b9e\u6218\u6d3e \u77e5\u8bc6\u5730\u56fe&#xff1a;\u5f3a\u5316\u5b66\u4e60\u77e5\u8bc6\u5730\u56fe \u80cc\u666f\u4e0e\u610f\u4e49 \u672c\u7bc7\u6587\u7ae0\u4e3b\u8981\u57fa\u4e8eVeRL\u6846\u67b6\u4e0a\u63d0\u51fa\u7684GSPO\u7b97\u6cd5\u5728\u6607\u817eNPU\u4e0a\u8fdb\u884c\u5b9e\u8df5\u90e8\u7f72&#xff0c;\u5e76\u4e3a\u5927\u5bb6\u7b80\u5355\u4ecb\u7ecdGRPO\u7b97\u6cd5\u601d\u60f3\u4ee5\u53ca\u5176\u548cGSPO\u7b97\u6cd5\u7279\u6027\u5dee\u5f02\u3002 \u7b97\u6cd5\u539f\u7406 \u8bba\u6587\u5730\u5740 GRPO&#xff1a;https:\/\/arxiv.org\/abs\/2402.03300 GSPO&#xff1a;https:\/\/arxiv.org\/abs\/2507.18071 GRPO&#xff1a;\u7fa4\u7ec4\u76f8","og_url":"https:\/\/www.wsisp.com\/helps\/78332.html","og_site_name":"\u7f51\u7855\u4e92\u8054\u5e2e\u52a9\u4e2d\u5fc3","article_published_time":"2026-02-26T19:34:11+00:00","og_image":[{"url":"https:\/\/www.wsisp.com\/helps\/wp-content\/uploads\/2026\/02\/20260226193350-69a0a01ed9355.png"}],"author":"admin","twitter_card":"summary_large_image","twitter_misc":{"\u4f5c\u8005":"admin","\u9884\u8ba1\u9605\u8bfb\u65f6\u95f4":"27 \u5206"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/www.wsisp.com\/helps\/78332.html","url":"https:\/\/www.wsisp.com\/helps\/78332.html","name":"\u57fa\u4e8eVeRL\u6846\u67b6\u7684GSPO\u7b97\u6cd5\u5728Atlas 800T A2\u670d\u52a1\u5668\u4e0a\u5b9e\u8df5 - \u7f51\u7855\u4e92\u8054\u5e2e\u52a9\u4e2d\u5fc3","isPartOf":{"@id":"https:\/\/www.wsisp.com\/helps\/#website"},"datePublished":"2026-02-26T19:34:11+00:00","dateModified":"2026-02-26T19:34:11+00:00","author":{"@id":"https:\/\/www.wsisp.com\/helps\/#\/schema\/person\/358e386c577a3ab51c4493330a20ad41"},"breadcrumb":{"@id":"https:\/\/www.wsisp.com\/helps\/78332.html#breadcrumb"},"inLanguage":"zh-Hans","potentialAction":[{"@type":"ReadAction","target":["https:\/\/www.wsisp.com\/helps\/78332.html"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/www.wsisp.com\/helps\/78332.html#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"\u9996\u9875","item":"https:\/\/www.wsisp.com\/helps"},{"@type":"ListItem","position":2,"name":"\u57fa\u4e8eVeRL\u6846\u67b6\u7684GSPO\u7b97\u6cd5\u5728Atlas 800T A2\u670d\u52a1\u5668\u4e0a\u5b9e\u8df5"}]},{"@type":"WebSite","@id":"https:\/\/www.wsisp.com\/helps\/#website","url":"https:\/\/www.wsisp.com\/helps\/","name":"\u7f51\u7855\u4e92\u8054\u5e2e\u52a9\u4e2d\u5fc3","description":"\u9999\u6e2f\u670d\u52a1\u5668_\u9999\u6e2f\u4e91\u670d\u52a1\u5668\u8d44\u8baf_\u670d\u52a1\u5668\u5e2e\u52a9\u6587\u6863_\u670d\u52a1\u5668\u6559\u7a0b","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/www.wsisp.com\/helps\/?s={search_term_string}"},"query-input":"required name=search_term_string"}],"inLanguage":"zh-Hans"},{"@type":"Person","@id":"https:\/\/www.wsisp.com\/helps\/#\/schema\/person\/358e386c577a3ab51c4493330a20ad41","name":"admin","image":{"@type":"ImageObject","inLanguage":"zh-Hans","@id":"https:\/\/www.wsisp.com\/helps\/#\/schema\/person\/image\/","url":"https:\/\/gravatar.wp-china-yes.net\/avatar\/?s=96&d=mystery","contentUrl":"https:\/\/gravatar.wp-china-yes.net\/avatar\/?s=96&d=mystery","caption":"admin"},"sameAs":["http:\/\/wp.wsisp.com"],"url":"https:\/\/www.wsisp.com\/helps\/author\/admin"}]}},"_links":{"self":[{"href":"https:\/\/www.wsisp.com\/helps\/wp-json\/wp\/v2\/posts\/78332","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.wsisp.com\/helps\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.wsisp.com\/helps\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.wsisp.com\/helps\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.wsisp.com\/helps\/wp-json\/wp\/v2\/comments?post=78332"}],"version-history":[{"count":0,"href":"https:\/\/www.wsisp.com\/helps\/wp-json\/wp\/v2\/posts\/78332\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.wsisp.com\/helps\/wp-json\/wp\/v2\/media\/78312"}],"wp:attachment":[{"href":"https:\/\/www.wsisp.com\/helps\/wp-json\/wp\/v2\/media?parent=78332"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.wsisp.com\/helps\/wp-json\/wp\/v2\/categories?post=78332"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.wsisp.com\/helps\/wp-json\/wp\/v2\/tags?post=78332"},{"taxonomy":"topic","embeddable":true,"href":"https:\/\/www.wsisp.com\/helps\/wp-json\/wp\/v2\/topic?post=78332"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}