最新消息:关注人工智能 AI赋能新媒体运营

谷歌发布VaultGemma,全球最大差分隐私语言模型开放下载

科技智能 admin 浏览 评论

Google发布VaultGemma,首个大规模差分隐私语言模型

Google发布VaultGemma,这是一个目前最大拥有10亿参数、从头开始采用差分隐私方法训练的语言模型。该模型的特点在于提供序列级别的隐私保护,实测显示,在以50个Token前缀检测背诵时,未观察到模型复制训练样本。Google同步将权重发布至Hugging Face与Kaggle,方便研究人员与开发者下载与实验。

Google在推出VaultGemma的同时,还发表了一项新的研究成果,称为差分隐私语言模型的扩展定律。研究指出,当在训练大型语言模型时引入差分隐私,传统的“规模越大、表现越好”的规律会受到干扰。

研究团队以模型大小、迭代次数与噪声批次比(Noise-batch Ratio)作为主要变量,构建了一套能准确预测训练损失的模型。实验结果表明,要在差分隐私条件下维持学习稳定性,应采用较小的模型,并搭配大幅放大的批次和适当的迭代次数,而该方法不同于一般非差分隐私训练模型的最佳配置。

在训练过程中,Google团队必须解决差分隐私SGD(DP-SGD)的实际挑战。传统的固定批次方式无法提供最佳的隐私保护,因此研究人员改用泊松采样,使每次抽取的批次更加随机。不过,这种方法会导致批次大小不一致,数据处理顺序也变得不可预测,增加了训练的复杂度。

由于需要兼顾效率与隐私,研究团队引入了此前提出的可扩展DP-SGD技术,通过在批次中加入填充或裁剪的方式,将不同大小的批次转换为固定大小,确保隐私计算(Privacy Accounting)依然严谨,并使训练流程保持稳定。此外,团队还将预训练序列长度设为1,024个Token,以便使用更大的批次规模,并延续Gemma 2所采用的数据混合方式。

性能评估显示,VaultGemma在HellaSwag、BoolQ、PIQA、SocialIQA、TriviaQA与ARC等标准基准测试上的表现,低于同规模的非DP版本Gemma 3 1B(10亿参数),但与5年前的GPT-2 1.5B(15亿参数)相当。也就是说,当前差分隐私训练在性能上仍存在一定差距,但也展现了模型在问答、推理、阅读理解等基础任务上的可用性。

在隐私单位的选择上,VaultGemma采用序列级别的差分隐私,适用于异质且长度不一的文档组合。官方也提醒,在某些应用场景中,当数据能直接对应到单一用户时,采用用户级别的差分隐私更为合适。

VaultGemma的价值不在于与最新的非差分隐私模型竞争,而是提供一个有理论支持、实测验证且公开可用的基础,让开发者在隐私保护与性能之间有更明确的参考点。Google此次发布的模型卡与技术报告,详细列出了隐私计算方式、训练架构与性能基准,帮助研究人员理解当前隐私与性能之间的权衡。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论