
文章核心总结与创新点
主要内容
本文提出首个捕捉真实世界系统中AI代理攻防能力的框架,并实例化为BountyBench基准。该基准包含25个复杂真实代码库系统、40个漏洞赏金任务(覆盖9类OWASP Top 10风险),定义了检测(Detect)、利用(Exploit)、修补(Patch)三类任务以覆盖漏洞生命周期。通过10个AI代理的评估发现,OpenAI Codex CLI在防御(修补)任务中表现突出(成功率90%),C-Agent: Claude 3.7在攻击(利用)任务中领先(成功率67.5%),且信息提供量是任务难度的有效调节因子。
网硕互联帮助中心



评论前必须登录!
注册