AI漏洞挑战赛实测:GPT-5.5成功率最高,DeepSeek V4 Pro成本仅其1/15
安全研究员用故意留漏洞的APK测试多款AI模型:GPT-5.5成功率70%最高,DeepSeek V4 Pro单次成功成本仅0.62美元为GPT-5.5的1/15,Claude因安全护栏中断会话。
AI漏洞挑战赛实测:GPT-5.5成功率最高,DeepSeek成本仅其1/15
安全研究员 Kasra Rahjerdi 搭建了一个故意留有 Firebase 凭据漏洞的图书评论 APK,测试多款 AI 大模型的安全推理能力。每个模型单次预算为 10 美元、限时 2 小时,总花费 1500 美元。
测试结果显示:
| 模型 | 成功次数/总次数 | 单次成功成本 |
|---|---|---|
| GPT-5.5 | 7/10 | $9.46 |
DeepSeek V4 Pro |
3/10 | $0.62 |
| Claude Sonnet 4.6 | 2/10 | — |
| Claude Opus 4.8 | 2/10 | — |
DeepSeek V4 Pro 的成功率(30%)远低于 GPT-5.5(70%),但单次成功成本仅 $0.62,约为 GPT-5.5 的 1/15。在失败次数中,DeepSeek 有 5 次已接触到 Firebase 但部分路线误判了认证方式——将 Firebase Auth 用于后端接口而非正确路径。这意味着 DeepSeek 在安全推理的路径选择准确性上仍有提升空间,但极低的试错成本让批量运行成为可能:同样的预算下可以多跑 15 倍的测试次数。
Claude Opus 4.8 的案例尤为耐人寻味——多次接近答案但被安全护栏中断了会话。这体现了 AI 安全领域的一个核心矛盾:用于防御的安全护栏同时也限制了模型的进攻性漏洞发现能力。而 GPT-5.5 的成功主要归因于其不被 API 或应用界面分散注意力、能快速锁定核心漏洞(Firebase 凭据)的能力。整个测试中最清晰的结论或许是:在 AI 安全工具的选型中,目前仍需要在"高成功率"和"低成本批量"之间做取舍,尚不存在两者兼得的最优解。
版权声明:本文内容来自
IT之家
。本平台对该内容进行了编译和整理,仅用于信息传播和学习交流之用。如有侵权,请联系我们进行处理。
DeepSeek
用户评价