当前位置：网硕互联帮助中心 > 服务器百科 > 正文

FINISH FIRST, PERFECT LATER: TEST-TIME TOKEN-LEVEL CROSS-VALIDATION FOR DIFFUSION LARGE LANGUAGE MOD

2026-02-07 分类：服务器百科阅读(10) 评论(0)

在这里插入图片描述该文章提出了一种名为TOLERATOR的无训练解码策略，旨在解决离散扩散大型语言模型（dLLMs）解码中“令牌一旦被接受便无法修改”的核心问题，通过两阶段流程提升模型生成质量，且在多任务基准测试中表现优于现有方法。

一、文章主要内容总结

研究背景

dLLMs作为自回归（AR）模型的替代方案，具备并行解码加速和双向上下文建模优势，但现有离散dLLMs的普通解码策略存在缺陷：令牌一旦被接受，后续步骤无法修改，导致早期错误持续传播，影响生成质量。
现有改进方法（如ReMDM、RCR、GIDD）或改进效果有限，或需额外训练，未能完全解决问题。

核心方法：TOLERATOR

采用“填充-优化”两阶段无训练解码流程，无需对模型进行额外训练，仅优化解码环节。
阶段一：序列填充（Sequence Fill-Up）：遵循普通dLLM解码策略填充掩码令牌，同时引入文本结束（EoT）令牌的对数惩罚，避免生成过短序列，为后续优化提供更完整的初始草稿。
阶段二：交叉验证优化（Cross-Validation Refinement）：迭代对部分令牌重新掩码并解码，剩余令牌作为上下文；采用余弦退火调度优化率，

赞(0)

未经允许不得转载：网硕互联帮助中心 » FINISH FIRST, PERFECT LATER: TEST-TIME TOKEN-LEVEL CROSS-VALIDATION FOR DIFFUSION LARGE LANGUAGE MOD

标签：人工智能自然语言处理语言模型

相关推荐

评论抢沙发

评论前必须登录！

立即登录注册