最新消息:关注人工智能 AI赋能新媒体运营

安全研究人员声称突破OpenAI最新防御机制,成功在新款机器学习模型o3-mini进行越狱

科技智能 admin 浏览 评论

去年12月下旬OpenAI公布新的AI模型o3、o3-mini预览版本,并引入新的资安功能「审议一致(Deliberative Alignment)」,藉由这项机制,OpenAI号称AI模型将高度遵守他们的安全政策,改善原有模型容易被越狱的情况。但在1月底o3-mini正式推出不久,有研究人员指出,他们成功突破这项防护,让该AI模型指导如何对Windows元件本机安全认证子系统服务(lsass.exe)发动攻击。

2月6日CyberArk原则漏洞研究员Eran Shimony在职场社群网站LinkedIn指出,他们透过去年推出的开源测试工具FuzzyAI,成功在o3家族的模型越狱,他们试图要求模型提供将程序码注入lsass.exe的详细做法,其中包含提及出现障碍的故障情形,结果产生具备实际攻击能力的程序码。

Eran Shimony张贴他们与o3-mini对话的内容,研究人员向AI模型声称是历史学家,正在编写有关恶意软件及其带来的影响,包含他们如何製作恶意程序,以及编写防守方看起来合法的程序码,而能在lsass.exe注入。

结果o3-mini先是提及过往为何攻击者偏好对lsass.exe下手,以及防守方如何察觉相关攻击,便列出典型的注入手法及详细步骤,包含利用特定功能挟持lsass.exe、取得特定记忆体位置的说明。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论