最新消息:关注人工智能 AI赋能新媒体运营

GitHub自4月24日起默认用Copilot用户数据训练AI模型

科技资讯 admin 浏览

GitHub将用你的代码训练AI,2026年起默认开启

GitHub宣布,从2026年4月24日起,将开始使用Copilot Free、Pro 和 Pro+ 用户的交互数据来训练其AI模型。这意味着,你写过的代码、提出的修改建议、聊天记录、甚至项目结构,都可能被用来优化Copilot的推荐能力。

这不是“是否同意”的选择题,而是“是否退出”的操作题。默认情况下,所有符合条件的用户都会被自动纳入数据收集范围。如果你不想自己的代码被用于训练,必须手动进入账户的隐私设置,逐一关闭相关选项。许多开发者对此感到意外——毕竟,自己仓库里的代码,本该是私有的。

GitHub首席产品官Mario Rodriguez表示,加入这些交互数据后,模型的建议更贴合真实开发场景,接受率在微软内部测试中明显提升。但没人能确切告诉你,你的私有项目代码——比如公司核心业务逻辑、未公开的算法、或刚写了一半的原型——会不会被混进训练集里。GitHub说“不会用在公开模型中”,可谁又能保证它不会间接影响模型的判断逻辑?

目前,Copilot Business、Enterprise 和教育版用户不受影响,因为这些账户通常受企业合同约束,数据使用有额外条款。但对数千万普通开发者来说,这是一次无声的规则变更。

Github

“私有代码”正在消失?开发者集体担忧

GitHub过去一直以“开源托管平台”自居,如今却悄悄转向“AI训练数据池”。这不是技术升级,而是角色转变。

真正让人不安的,不是数据被用,而是“私有”这个词被重新定义了。你上传到私有仓库的代码,GitHub说它“只是用来训练模型”,但模型一旦学会你的写作风格、项目结构、甚至错误习惯,它就会在你下次敲代码时,不声不响地“帮你”补全——而你根本不知道,这些灵感来自你自己的代码。

不少开发者在Reddit和Hacker News上发帖质疑:如果我写了一段处理金融交易的代码,它被训练进模型,那其他用户会不会在不知情的情况下,被Copilot推荐出相似的逻辑?如果我的代码里有个隐藏的bug,模型学会了,然后推荐给成千上万的人,谁负责?

更现实的问题是:很多中小企业和个人开发者,根本不知道怎么找隐私设置,或者根本没时间去逐项检查。他们以为“私有”就是安全,结果一觉醒来,自己的代码成了AI的“教材”。

行业趋势:公有数据不够用了,私有代码成新矿

过去几年,AI模型主要靠GitHub、GitLab等平台上的公开代码训练。但随着开源项目被反复“榨取”,高质量、多样化的公开代码越来越稀缺。头部公司开始转向更深层的“行为数据”——也就是你真实写代码时的每一次敲击、每一次删除、每一次接受或拒绝建议。

这不只是GitHub的事。Anthropic、JetBrains、Amazon CodeWhisperer 等厂商也在悄悄收集类似数据。但GitHub的特殊性在于:它是全球最大的代码托管平台,拥有超过1亿开发者账户。它的用户基数,让它的一次政策调整,就能影响整个行业的数据采集标准。

有人担心,未来AI编程工具的“智能程度”,将不再取决于算法有多先进,而取决于谁手里的私有代码最多。谁拥有更多真实开发者的操作数据,谁就能做出更“懂你”的AI助手。这会让大厂优势进一步扩大,小团队和独立开发者反而更难突围。

你能做什么?现在就该行动

虽然政策2026年才生效,但别等最后一刻才反应。现在就可以登录GitHub,进入 Settings → Privacy,查看“AI training”相关选项。如果你不想自己的代码被用于训练AI,立刻关闭。

如果你是企业开发者,建议联系你的IT或法务团队,确认公司是否已为Copilot Business版本做了数据隔离。如果是个人项目,尤其是涉及敏感业务、客户数据或专利技术的代码,建议考虑使用本地AI工具(如CodeLlama、StarCoder等)或完全关闭Copilot。

这不是“要不要用AI”的问题,而是“谁来决定你的代码归谁”的问题。GitHub说这是为了“提升体验”,但体验的背后,是数据权属的悄然转移。

你写的每一行代码,不该只是AI的养料。它属于你。