只要250份投毒样本,就能在大语言模型预训练中植入后门,触发乱码
admin 2025-10-15 84浏览
Anthropic、英国AI安全研究所及艾伦·图灵研究所发表联合研究,证实只需约250份恶意文件,便能在大型语言模型的预训练阶段植入后门行为,遇到特定触发词即输出乱码。此结果与模型参...
admin 2025-10-15 84浏览
Anthropic、英国AI安全研究所及艾伦·图灵研究所发表联合研究,证实只需约250份恶意文件,便能在大型语言模型的预训练阶段植入后门行为,遇到特定触发词即输出乱码。此结果与模型参...