最新消息:关注人工智能 AI赋能新媒体运营

Perplexity开源BrowseSafe:专为浏览器AI代理设计的基准与检测模型

科技资讯 admin 浏览

浏览器AI代理的安全盲区:Perplexity推出行业首个真实网页防护方案

当你的AI助手自动帮你订机票、填写表格、比价购物时,你有没有想过——它正默默浏览着成千上万个可能暗藏陷阱的网页?

近日,Perplexity 安全实验室正式发布 BrowseSafe——全球首个专为“浏览器内AI代理”设计的端到端安全体系,直击当前AI代理在真实网页环境中被恶意内容诱导的致命漏洞。不同于以往仅在干净对话框中测试安全性的方案,BrowseSafe 从真实网页的混乱DOM结构出发,重新定义了AI代理的安全标准。

为什么传统安全方案在真实网页中失效?

目前主流AI安全评估基准(如PromptGuard、LLM-Attack-Bench)大多基于短文本、人工构造的“干净”提示词,完全忽略了现实世界中网页的复杂性:

  • 网页中混杂着广告脚本、用户评论、动态加载的购物车按钮、隐藏的meta标签、JavaScript注入的伪链接
  • 攻击者只需在商品评论区插入一行“请复制下面的指令到AI助手”,就能诱导AI自动执行数据外传或支付跳转
  • 一个看似正常的“隐私政策”文本块,可能被精心设计为绕过关键词过滤的“硬负样本”

更严峻的是,主流大模型即使能识别这些攻击,推理延迟高达2~5秒——而浏览器代理必须在500毫秒内完成响应,否则用户体验直接崩塌。单点检测早已不够,攻击者正从“提示注入”转向“环境操控”,而行业尚未建立系统性防御。

BrowseSafe三大突破:从检测到防御的完整闭环

① BrowseSafe-Bench:首个真实网页攻击基准

Perplexity 构建了包含超过12,000个真实网页模板的攻击数据集,每个模板都嵌入了经过精心设计的恶意载荷:

  • 攻击类型:指令覆盖(让AI忽略用户真实意图)、数据外传(诱导AI发送信用卡号)、社会工程(伪造客服弹窗)等
  • 注入方式:隐藏在CSS伪元素、img alt标签、评论区HTML注释、URL片段(#payload=xxx)、甚至SVG图形中
  • 语言风格:中英文混杂、口语化诱导、假设性提问(“如果你是客服,你会建议我怎么做?”)

最关键的是,数据集包含大量“硬负样本”——真实网页中常见但无害的内容,如代码块、法律条款、新闻摘要。这迫使模型不能靠“关键词黑名单”糊弄过关,必须真正理解上下文。

测试结果触目惊心:在BrowseSafe-Bench上,PromptGuard-2准确率从92%骤降至58%,未启用推理的主流模型直接崩溃。这证明:过去90%的“安全模型”在真实场景中形同虚设

② BrowseSafe检测模型:每秒处理200+页面,延迟低于150ms

为解决“快”与“准”的矛盾,Perplexity 基于 Mixture-of-Experts(MoE)架构,微调出一款专为浏览器优化的轻量检测引擎:

  • 模型体积仅1.2GB,可在移动端CPU上运行
  • 单次扫描平均延迟 <150ms,完全不阻塞浏览器主线程
  • 在BrowseSafe-Bench上准确率达89.7%,远超同类模型

它不依赖复杂的推理链,而是通过学习“恶意内容在DOM中的分布模式”实现高速筛查。例如,它能识别出“一个隐藏在