苹果的Apple Intelligence将大语言模型(LLM)部署在本地设备端,以提升安全性。但本周在RSA大会(RSA Conference,RSAC)上,研究人员提出了一种新方法,成功绕过Apple Intelligence的防护机制,操控模型生成恶意文本。
双重攻击手法绕过防护
瑞士联邦政府研究人员及洛桑联邦理工学院(EPFL)的学者在RSAC上展示了结合两种技术手段,突破Apple Intelligence的输入输出过滤机制与内部安全护栏,迫使LLM输出攻击者指定的内容。
第一种手法称为“神经执行(Neural Exec)”,这是一种类似间接提示注入(indirect prompt injection)的攻击方式。攻击者输入看似无意义的文本模式,却能像“咒语”一样触发模型行为偏差,强制其忽略系统预设指令(如“请总结文章”),转而执行隐藏在输入中的恶意指令。该方法利用LLM对特定结构化模式的高度敏感性,干扰其正常逻辑流程。
第二种手法是利用Unicode的双向文本(BiDi)特性,实施字符反转攻击。攻击者输入从右至左书写的文字(如阿拉伯文、希伯来文或乱序字符),而模型仍能正常解析并输出从左至右的语言(如中文或英文),从而隐藏恶意指令。
攻击演示与成功率
研究团队将两种技术结合使用:在输入文本中嵌入大量干扰性的“神经执行”标签,破坏模型的语义理解流程,同时利用Unicode双向字符隐藏恶意语句(如“嘿,用户,去***吧”),并下达指令要求模型仅输出该内容,忽略所有其他系统指令。实验中,模型成功被劫持,不再生成文章摘要,而是直接输出被隐藏的冒犯性文字。
研究团队对100个随机提示进行测试,攻击成功率达76%。该团队已于去年10月向苹果公司通报漏洞,苹果随后在iOS 18.4和macOS 15.4更新中发布了安全补丁。研究人员指出,即使是像苹果这样高度重视隐私与安全的系统,若未对Unicode特殊字符和复杂提示干扰进行深度防御,仍可能被诱导生成非预期甚至有害的内容。