云计算百科
云计算领域专业知识百科平台

2025_NIPS_Time-R1: Post-Training Large Vision Language Model for Temporal Video Grounding

在这里插入图片描述

文章核心总结与创新点

主要内容

该研究聚焦长视频理解中的核心任务——时间视频定位(TVG),即根据自然语言查询定位视频中特定片段。针对现有大型视觉语言模型(LVLMs)在TVG任务中因监督微调(SFT)过惩罚合理预测导致泛化能力不足的问题,提出了基于强化学习(RL)的后训练框架Time-R1,配套设计了数据高效的微调策略TimeRFT和专用基准测试集TVGBench,最终在多个数据集上实现了最先进(SoTA)性能,同时提升了模型在长短视频问答任务中的通用理解能力。

核心创新点

  • RL驱动的后训练框架Time-R1:通过带可验证奖励的强化学习优化,先生成推理过程再预测时间戳,避免SFT的刚性惩罚,核心是结合tIoU(时间感知交并比)和推理格式的复合奖励函数。
  • 数据高效的微调策略TimeRFT:构建含难度标注的RL友好数据集,采用高斯过滤筛选中等难度样本,通过多轮训练动态过滤易样本,并引入冷启动策略减少推理幻觉。
  • 专用基准测试集TVGBench:从5个公开数据集筛选800个样本,覆盖11类查询语义,平衡视频时长、查询分布和数据来源,适配LVLMs的评估需求。
  • 跨任务泛化提升:不仅在TVG任务中超越
  • 赞(0)
    未经允许不得转载:网硕互联帮助中心 » 2025_NIPS_Time-R1: Post-Training Large Vision Language Model for Temporal Video Grounding
    分享到: 更多 (0)

    评论 抢沙发

    评论前必须登录!