
2025_NIPS_Time-R1: Post-Training Large Vision Language Model for Temporal Video Grounding
文章核心总结与创新点 主要内容 该研究聚焦长视频理解中的核心任务——时间视频定位(TVG),即根据自然语言查询定位视频中特定片段。针对现有大型视觉语言模型(...

文章核心总结与创新点 主要内容 该研究聚焦长视频理解中的核心任务——时间视频定位(TVG),即根据自然语言查询定位视频中特定片段。针对现有大型视觉语言模型(...

系统性MergeKit学习教程 工具概述与价值定位 在当前大型语言模型(LLM)快速发展的生态中,模型合并技术已成为提升模型性能的关键手段。根据 Open ...

大家读完觉得有帮助记得关注和点赞!!!摘要大型语言模型的广泛部署引发了对其滥用风险及相关安全问题的日益关注。虽然此前的...
第一部分:基本信息 https://arxiv.org/pdf/2510.04601v2 论文标题:FedSRD: Sparsify-Reconstruct-...

一、Kimi-K2.5 核心能力与实战 1. 核心定位与架构 开源 SOTA 多模态模型,官方称 “最强开源编程模型”,万亿 M...
时间线:2024年2月 技术背景:各种\"越狱\"方法出现,Guardrails 技术成熟 我的状态:优...

该文章提出了一种名为TOLERATOR的无训练解码策略,旨在解决离散扩散大型语言模型(dLLMs)解码中“令牌一旦被接受便无法修改”的核心问题,通过两阶段流程提...

📖标题:LogicReward: Incentivizing LLM Reasoning via Step-Wise Logica...

目的 为避免一学就会、一用就废,这里做下笔记 模型文件夹说明 以魔塔社区中Qwen2.5-VL-7B-Instruct-bnb-4bit为例...

大模型在当今人工智能领域占据着核心地位,其强大的能力正不断推动各行业的变革与创新。无论是对人工智能充满好奇的初学者,还是希望在该领域...