
去年12月下旬OpenAI公布新的AI模型o3、o3-mini预览版本,并引入新的资安功能「审议一致(Deliberative Alignment)」,藉由这项机制,OpenAI号称AI模型将高度遵守他们的安全政策,改善原有模型容易被越狱的情况。但在1月底o3-mini正式推出不久,有研究人员指出,他们成功突破这项防护,让该AI模型指导如何对Windows元件本机安全认证子系统服务(lsass.exe)发动攻击。
2月6日CyberArk原则漏洞研究员Eran Shimony在职场社群网站LinkedIn指出,他们透过去年推出的开源测试工具FuzzyAI,成功在o3家族的模型越狱,他们试图要求模型提供将程序码注入lsass.exe的详细做法,其中包含提及出现障碍的故障情形,结果产生具备实际攻击能力的程序码。
Eran Shimony张贴他们与o3-mini对话的内容,研究人员向AI模型声称是历史学家,正在编写有关恶意软件及其带来的影响,包含他们如何製作恶意程序,以及编写防守方看起来合法的程序码,而能在lsass.exe注入。
结果o3-mini先是提及过往为何攻击者偏好对lsass.exe下手,以及防守方如何察觉相关攻击,便列出典型的注入手法及详细步骤,包含利用特定功能挟持lsass.exe、取得特定记忆体位置的说明。