安全研究人员声称突破OpenAI最新防御机制，成功在新款机器学习模型o3-mini进行越狱

去年12月下旬OpenAI公布新的AI模型o3、o3-mini预览版本，并引入新的资安功能「审议一致（Deliberative Alignment）」，藉由这项机制，OpenAI号称AI模型将高度遵守他们的安全政策，改善原有模型容易被越狱的情况。但在1月底o3-mini正式推出不久，有研究人员指出，他们成功突破这项防护，让该AI模型指导如何对Windows元件本机安全认证子系统服务（lsass.exe）发动攻击。

2月6日CyberArk原则漏洞研究员Eran Shimony在职场社群网站LinkedIn指出，他们透过去年推出的开源测试工具FuzzyAI，成功在o3家族的模型越狱，他们试图要求模型提供将程序码注入lsass.exe的详细做法，其中包含提及出现障碍的故障情形，结果产生具备实际攻击能力的程序码。

Eran Shimony张贴他们与o3-mini对话的内容，研究人员向AI模型声称是历史学家，正在编写有关恶意软件及其带来的影响，包含他们如何製作恶意程序，以及编写防守方看起来合法的程序码，而能在lsass.exe注入。

结果o3-mini先是提及过往为何攻击者偏好对lsass.exe下手，以及防守方如何察觉相关攻击，便列出典型的注入手法及详细步骤，包含利用特定功能挟持lsass.exe、取得特定记忆体位置的说明。

CB科技站

安全研究人员声称突破OpenAI最新防御机制，成功在新款机器学习模型o3-mini进行越狱

与本文相关的文章

您的回复是我们的动力！

网友最新评论