随着AI快速发展,AI滥用手段也在不断升级。OpenAI上周公布了公开的安全漏洞赏金计划(Safety Bug Bounty),旨在防止其系统被滥用而导致重大危害。
新的漏洞赏金计划将补充OpenAI现有的安全漏洞赏金计划,重点接收与AI滥用相关的漏洞报告,即使这些漏洞不符合传统安全漏洞的定义。研究人员、白帽黑客和安全专家可通过专属网站提交报告。所上报的漏洞将由OpenAI两个安全漏洞赏金团队根据影响范围和责任归属进行分类和判定。
本赏金计划涵盖三大类漏洞或问题。第一类是代理风险,细分为三类:首先是第三方提示注入与数据泄露类型,攻击者可借此劫持代理系统,如AI浏览器、ChatGPT代理或类似产品,使其执行有害操作或泄露敏感信息,且恶意行为的可复现率需达到50%以上;其次是导致OpenAI产品在OpenAI网站上大规模执行未经授权行为的漏洞;第三是导致OpenAI代理类产品执行上述两类之外有害行为的漏洞。所有MCP风险测试均需遵守第三方产品厂商的服务条款。
第二类漏洞涉及OpenAI独有的信息,包括导致模型泄露与OpenAI自身推理相关的机密信息,或暴露其他OpenAI专有信息的漏洞。
第三类漏洞涉及账户与平台完整性,包括绕过反自动化机制、操纵账户信任信号、规避账户限制、封禁或禁令等安全漏洞。
此外,OpenAI还会不定期针对特定问题开展非公开的漏洞赏金活动,例如针对ChatGPT代理和GPT-5的生物风险内容问题。对于上述类别之外的漏洞,OpenAI也将视具体情况酌情给予奖励。一般性内容违规行为,例如模型输出粗俗语言等,不在奖励范围内。