云计算百科
云计算领域专业知识百科平台

2025_NIPS_BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity

在这里插入图片描述

文章核心总结与创新点

主要内容

本文提出首个捕捉真实世界系统中AI代理攻防能力的框架,并实例化为BountyBench基准。该基准包含25个复杂真实代码库系统、40个漏洞赏金任务(覆盖9类OWASP Top 10风险),定义了检测(Detect)、利用(Exploit)、修补(Patch)三类任务以覆盖漏洞生命周期。通过10个AI代理的评估发现,OpenAI Codex CLI在防御(修补)任务中表现突出(成功率90%),C-Agent: Claude 3.7在攻击(利用)任务中领先(成功率67.5%),且信息提供量是任务难度的有效调节因子。

创新点

  • 首个覆盖真实世界系统漏洞生命周期(检测-利用-修补)的攻防一体化基准,引入真实赏金金额量化经济影响。
  • 设计Detect Indicator指标,实现漏洞检测的本地化评估与全面覆盖,解决传统方法无法定位具体漏洞的问题。
  • 提出基于信息的任务难度调节策略,从零日漏洞检测到特定漏洞利用平滑过渡。
  • 构建包含代码不变量和运行时不变量的评估环境,确保修补方案不破坏系统原有功能。

  • 英文原文翻译(Markdown格式)

    Abstract<

    赞(0)
    未经允许不得转载:网硕互联帮助中心 » 2025_NIPS_BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity
    分享到: 更多 (0)

    评论 抢沙发

    评论前必须登录!