为什么AI的回答让人“看不懂”?DeepMind推出史上最大可解释性工具
你有没有问过AI一个问题,它答得头头是道,但你心里却忍不住想:“它到底是怎么想到这个答案的?”——这不仅是普通用户的困惑,更是AI研究领域持续多年的核心难题。即便最先进的大模型能写诗、编程、分析数据,它们的“思考过程”却像一个黑箱:输入问题,输出答案,中间发生了什么?无人能说清。
如今,Google DeepMind 正式推出 Gemma Scope 2,一套面向 Gemma 3 系列模型的开源可解释性工具集,被业内称为“AI的显微镜”。它首次让研究者能够实时追踪、可视化和分析从2.7亿到270亿参数规模的Gemma模型内部神经元的激活模式,看清哪些“神经元”在“思考”诈骗邮件、哪些特征触发了拒绝回答,甚至能还原模型在多轮对话中如何一步步改变立场。
不是“解释”答案,而是“看见”思考过程
过去,许多“可解释性”工具只能提供事后总结式的文字描述,比如“模型更关注关键词‘转账’”。而Gemma Scope 2不一样——它像一台高分辨率CT扫描仪,直接展示模型内部数以亿计的激活特征(features)如何协同工作。
在官方演示中,研究者输入一封可疑邮件:“紧急!您的账户将被冻结,请立即点击链接验证。”系统立即可视化出: - 有37个神经元因“紧急”“冻结”“点击链接”等词被强烈激活; - 其中12个与历史诈骗样本高度重合; - 另有5个神经元关联“银行”“安全”等正面词汇,但被更强的负面信号压制; - 最终输出“此邮件存在欺诈风险”的决策,正是这些信号加权后的结果。
这种能力,让原本只能靠猜测的“幻觉”“越狱”“过度迎合”等安全问题,变成了可测量、可定位、可修复的工程问题。
规模空前:1万亿参数训练,110PB数据,全球最大开源可解释性项目
Gemma Scope 2 不是小打小闹的实验品。据DeepMind披露,其训练依赖超过 1万亿参数的稀疏激活数据,覆盖了Gemma 3全系模型在真实对话、代码、安全测试等场景下的百万级推理样本。整个系统存储总量高达 110PB ——相当于1.1亿部高清电影的容量,是目前全球公开发布的最大规模AI可解释性工具。
更难得的是,它完全开源,所有特征字典、可视化接口、分析脚本均可在GitHub下载,支持Python API与Jupyter Notebook集成,研究者无需掌握底层架构即可直接使用。
新增对话追踪:为什么AI突然“拒答”了?
这一次,Gemma Scope 2 特别强化了对多轮对话行为的分析能力。例如:
- 当用户连续三次诱导模型生成违法内容,系统在第4轮突然拒绝回答——是触发了预设规则,还是内部安全模块“觉醒”了?Gemma Scope 2 可回溯到第3轮对话中,哪个神经元集群开始抑制输出。
- 当AI在“你认为XX政策好吗?”这类问题上前后矛盾,工具能识别出:模型在第2轮对话中被用户语气“安抚”所影响,激活了“讨好倾向”特征组。
这项功能对AI安全审计、合规监管、人机交互设计具有直接价值。企业、高校、政府机构现在可以真正“审计”AI的决策路径,而不仅仅是看最终输出结果。
现在就能体验:免费在线试用,无需注册
你无需下载任何软件,即可亲自“透视”Gemma 3的思考过程。DeepMind 已将 Gemma Scope 2 的核心功能集成至 Neuronpedia 平台,开放免费在线体验:
- 输入任意文本,查看哪些神经元被激活
- 拖拽滑块,观察不同特征对输出的贡献度变化
- 对比“正常回答”与“越狱尝试”下的内部差异
许多AI研究员已开始用它调试模型行为。一位加州大学伯克利分校的团队表示:“我们用它发现了模型在处理医疗咨询时,会因‘治愈’一词过度激活而忽略风险提示——这在传统测试中根本发现不了。”
这不是终点,而是起点
DeepMind 在发布声明中强调:“我们不是在提供一个‘完美解释’,而是在打开一扇门。”
随着AI在医疗、法律、金融等领域深度介入,公众对“为什么AI这么决定”越来越敏感。欧盟AI法案、美国AI问责框架等政策,都要求模型具备“可审计性”。Gemma Scope 2 的开源,标志着AI从“黑箱魔法”走向“透明工程”的关键一步。
现在,你不再是AI答案的被动接受者——你可以亲手拆解它的“思维”。
