云计算百科
云计算领域专业知识百科平台

SafePTR : Token-Level Jailbreak Defense in Multimodal LLMs via Prune-then-Restore Mechanism

在这里插入图片描述

文章主要内容总结

本文聚焦多模态大语言模型(MLLMs)的安全问题,针对其易受多模态越狱攻击的 vulnerabilities,提出了一种名为SafePTR的防御框架。

现有防御方法(如图文转换、安全提示词、多模态安全微调)存在缺陷:易受文本驱动的越狱攻击、过度防御导致效用下降、训练开销大且泛化能力弱。通过分析,作者发现MLLMs中仅早期-中期层中不到1%的有害token会引发不安全行为,这些token通过语义偏移(偏离安全对齐表示)绕过安全机制。

基于此,SafePTR采用“先修剪后恢复”的无训练框架:在易受攻击的早期-中期层修剪有害token,在后续“安全层”恢复良性特征,以平衡安全性和模型效用。实验表明,SafePTR在3个MLLMs(LLaVA-1.5、MiniGPT-4、DeepSeek-VL)和5个基准测试中,显著降低了攻击成功率(ASR),同时保持了多模态任务的效用,且无需额外训练开销。

创新点

  • 机制分析创新:首次深入分析了MLLMs中有害token的传播机制,明确“哪里(早期-中期层)、如何(语义偏移)、哪些(不到1%的token)”有害token引发越狱,为防御设计提供了可解释的依据。
  • 框架设计创新:提出无训练的“修剪-恢复”框架(SafePTR),针对性修剪易受攻击层的有害token,同时恢复
  • 赞(0)
    未经允许不得转载:网硕互联帮助中心 » SafePTR : Token-Level Jailbreak Defense in Multimodal LLMs via Prune-then-Restore Mechanism
    分享到: 更多 (0)

    评论 抢沙发

    评论前必须登录!