云端安全公司Wiz研究发现,在GitHub上可以找到大量组织的机密凭证,其中包括65%的知名AI初创公司。
这项研究聚焦于知名AI初创公司的安全实践。Wiz假设,任何在GitHub上拥有足够多源代码的AI公司,几乎必然存在凭证泄露情况。因此,研究对象锁定为未上市的AI公司,特别是具有代表性的《财富》AI 50榜单企业,涵盖从Anthropic到Glean、Crusoe等不同规模的公司,并在GitHub上进行系统性扫描。
扫描范围不仅包括提交历史记录、已删除的分支、工作流日志、gist等常见位置,还扩展至拓扑结构及周边关联区域,如被组织名称引用的账户元数据、代码贡献者,以及与HuggingFace、npm等平台相关的网络连接。
研究发现,在《财富》AI 50榜单中,近三分之二、约65%的公司可在GitHub上发现机密信息,如API密钥、令牌和敏感凭证等。这些信息常隐藏在已删除的分支、gist或开发者仓库中,多数常规扫描工具难以覆盖这些区域。研究人员指出,这些泄露信息可能导致组织架构、AI训练数据甚至模型被暴露。
Wiz估算,这些经验证的机密信息总价值超过4000亿美元。
在这些泄露事件中,GitHub足迹最小的公司虽未公开任何代码库,但仍有14家公司的成员泄露了其他敏感数据。而足迹最大但未发生泄露的公司,拥有60个公开代码库,分布在28名成员名下。研究人员表示,这些企业具备完善的机密管理机制。
从泄露凭证类型分布来看,前三类均与AI相关,分别为WeightsAndBiases、ElevenLabs和HuggingFace,Google API位列第四。
Wiz还分析了信息暴露的传播渠道。近半数通报未能真正送达受影响公司,或未获得回应。许多企业缺乏官方披露渠道、未及时响应或无法有效解决问题。但研究人员观察到,AI公司在这方面的处理能力正在逐步提升。例如,LangChain和ElevenLabs的API密钥泄露问题均得到快速修复。
然而,仍有一家《财富》AI 50企业在其已删除的分支中泄露了HuggingFace令牌,该令牌可访问1000个非公开模型。此外,Wiz还发现了多个WeightsAndBiases API密钥,导致非公开模型的训练数据被泄露。
Wiz建议,AI企业应部署针对公开版本控制系统(VCS)的机密信息扫描机制,建立公开的漏洞报告渠道,确保与外界的信息畅通,并考虑采用专用的机密检测工具,全面防范信息外泄风险。