研究人员发现新方法可绕过Apple Intelligence的防护机制，诱导模型输出不当内容

苹果的Apple Intelligence将大语言模型（LLM）部署在本地设备端，以提升安全性。但本周在RSA大会（RSA Conference，RSAC）上，研究人员提出了一种新方法，成功绕过Apple Intelligence的防护机制，操控模型生成恶意文本。

双重攻击手法绕过防护

瑞士联邦政府研究人员及洛桑联邦理工学院（EPFL）的学者在RSAC上展示了结合两种技术手段，突破Apple Intelligence的输入输出过滤机制与内部安全护栏，迫使LLM输出攻击者指定的内容。

第一种手法称为“神经执行（Neural Exec）”，这是一种类似间接提示注入（indirect prompt injection）的攻击方式。攻击者输入看似无意义的文本模式，却能像“咒语”一样触发模型行为偏差，强制其忽略系统预设指令（如“请总结文章”），转而执行隐藏在输入中的恶意指令。该方法利用LLM对特定结构化模式的高度敏感性，干扰其正常逻辑流程。

第二种手法是利用Unicode的双向文本（BiDi）特性，实施字符反转攻击。攻击者输入从右至左书写的文字（如阿拉伯文、希伯来文或乱序字符），而模型仍能正常解析并输出从左至右的语言（如中文或英文），从而隐藏恶意指令。

攻击演示与成功率

研究团队将两种技术结合使用：在输入文本中嵌入大量干扰性的“神经执行”标签，破坏模型的语义理解流程，同时利用Unicode双向字符隐藏恶意语句（如“嘿，用户，去***吧”），并下达指令要求模型仅输出该内容，忽略所有其他系统指令。实验中，模型成功被劫持，不再生成文章摘要，而是直接输出被隐藏的冒犯性文字。

研究团队对100个随机提示进行测试，攻击成功率达76%。该团队已于去年10月向苹果公司通报漏洞，苹果随后在iOS 18.4和macOS 15.4更新中发布了安全补丁。研究人员指出，即使是像苹果这样高度重视隐私与安全的系统，若未对Unicode特殊字符和复杂提示干扰进行深度防御，仍可能被诱导生成非预期甚至有害的内容。

模型诱导不当内容 Apple Intelligence 绕过护栏

CB科技站

研究人员发现新方法可绕过Apple Intelligence的防护机制，诱导模型输出不当内容

双重攻击手法绕过防护

攻击演示与成功率

与本文相关的文章