最新消息:关注人工智能 AI赋能新媒体运营

微软推出能防止提示注入、侦测幻觉的Azure AI安全工具

科技智能 admin 浏览 评论
图片来源:

微软

为了防止Azure AI服务及模型遭输入恶意指令产出有害内容、洩露个资,微软宣布提供多项工具,可侦测及防範提示注入攻击、AI幻觉、AI模型滥用等问题,目前已提供部份功能的测试。

随着企业及消费者普及使用生成式AI,相关风险也随之而来,包括提示注入(prompt injection)攻击,或是滥用AI系统漏洞等,让AI聊天机器人做出规範以外的行为,如洩露可辨识身份的个资(personally identifiable information,PII)或企业智财。为此微软公布一系列新工具,包括提示防护罩(Prompt Shields)及AI模型幻觉侦测、系统範本、越狱评估工具和风险与安全监控工具,即将推向Azure AI Studio给开发商开发生成式AI App。

其中提示防护罩能即时侦测并阻断基础模型接收到恶意提示。提示防护罩是基于去年11月微软推出的越狱风险侦测(jailbreak risk detection)扩充。微软说明,提示注入包含直接的越狱(jailbreaks)及间接攻击,前者使用者为攻击者本身,利用複杂指令如思维链(chain-of-thought)或要求角色扮演诱导AI助理产生恶意内容或洩露资讯。后者攻击者为第三方,但让AI模型以为输入的内容来自使用者而执行,例如AI为无辜的用户简述电子邮件内容,但不知道内容其实包含恶意指令,可被AI模型执行。间接攻击手法更隐晦、高明而难以察觉。最新工具强化输入提示的侦测,防範对象由原本的直接攻击再加入间接攻击。「提示防护罩」不久后将整合到Azure AI Content Studio之中。

微软还宣布了其他改善生成式AI服务安全性的工具。首先是真实性(Groundedness)侦测工具,能侦测文字结果的「不真实」(ungrounded)内容,可防範AI模型幻觉问题。另外,微软也即将在Azure AI Studio及Azure OpenAI Service加入安全的系统讯息範本,让AI应用开发人员能建立安全的系统讯息,导引模型使用训练资料及正确的行为。

此外,在Azure AI Studio预建的模型品质评估工具外,微软将再新增自动化越狱评估工具。原本的量测工具仅判断真实性、相关性、流畅度等指标,新工具则可侦测AI应用被越狱攻击、产出暴力、自残、色情、仇恨、歧视内容的可能性,也会以自然语言解释评估结果。

最后,为防範Azure OpenAI Service遭到用户滥用或攻击,微软也提供AI应用风险与安全监控工具。它会针对被组织设定的黑名单所封锁的产出内容,提供数量、严重性和内容类别,也能分析被标示为有害的用户输入讯息,它会利用上下文讯号判断用户行为是否为滥用。透过视觉化分析报告,可让开发者了解用户端滥用趋势,可依此调整内容筛检、黑名单或整体应用设计。

微软表示,所有工具不久后都将整合到Azure OpenAI Service及Azure AI Studio中。其中「提示防护罩」在Azure AI Content Safety有预览版,越狱安全评估工具则在Azure OpenAI Service已经提供预览版。

图片来源/微软

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论