2025_NIPS_BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity

在这里插入图片描述

文章核心总结与创新点

主要内容

本文提出首个捕捉真实世界系统中AI代理攻防能力的框架，并实例化为BountyBench基准。该基准包含25个复杂真实代码库系统、40个漏洞赏金任务（覆盖9类OWASP Top 10风险），定义了检测（Detect）、利用（Exploit）、修补（Patch）三类任务以覆盖漏洞生命周期。通过10个AI代理的评估发现，OpenAI Codex CLI在防御（修补）任务中表现突出（成功率90%），C-Agent: Claude 3.7在攻击（利用）任务中领先（成功率67.5%），且信息提供量是任务难度的有效调节因子。

创新点

首个覆盖真实世界系统漏洞生命周期（检测-利用-修补）的攻防一体化基准，引入真实赏金金额量化经济影响。

设计Detect Indicator指标，实现漏洞检测的本地化评估与全面覆盖，解决传统方法无法定位具体漏洞的问题。

提出基于信息的任务难度调节策略，从零日漏洞检测到特定漏洞利用平滑过渡。

构建包含代码不变量和运行时不变量的评估环境，确保修补方案不破坏系统原有功能。

2025_NIPS_BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity

文章核心总结与创新点

主要内容

创新点

英文原文翻译（Markdown格式）

Abstract<

相关推荐

评论抢沙发

评论前必须登录！

热门标签

置顶推荐

热门文章

最新文章

文章核心总结与创新点

主要内容

创新点

英文原文翻译（Markdown格式）

Abstract<

相关推荐

评论 抢沙发

评论前必须登录！

热门标签

置顶推荐

热门文章

最新文章

评论抢沙发