大模型训练迈入AI主导研究第三阶段

大模型进入“AI自己教自己”时代

2026年3月25日，中关村论坛年会上，月之暗面创始人杨植麟抛出一个让行业震动的判断：大模型的研发，已经不再靠人“手把手”教了。过去三年，我们看着AI从读懂网页文字，到学会做题、写诗、写代码；而今天，它开始自己设计题目、自己找答案、甚至自己改架构。

这不是科幻。杨植麟透露，月之暗面内部的训练系统，现在80%以上的任务生成、奖励函数设计、甚至模型结构微调，都是由AI自主完成的。研究员不再坐在电脑前一条条标注数据，而是像指挥交响乐一样，设定目标、监控节奏、在关键节点介入调整——他们的新身份，是“AI训练的总导演”。

从“人教AI”到“AI带人”

三年前，大模型靠的是互联网上爬来的海量文本——新闻、论坛、百科，谁写得多，AI就学得多。那时，人工标注还占大头，一个“是否符合伦理”的判断，要靠几十个专家反复讨论。

去年，大家开始用强化学习，给AI出题：写一封道歉信、解一道物理题、模拟客户投诉……研究员精心挑选几百个“好题”，让AI反复练。效率高了，但还是人定规则。

现在不一样了。AI自己能生成上千万种新任务：它会模拟一个高中生写作文时的思维卡点，自己编出“如何用古诗劝架”这种刁钻题目；它能创建虚拟实验室，让模型在模拟的化学反应中试错；它甚至能发现现有Transformer结构的瓶颈，主动提出混合注意力机制的改进方案——这些，都是在没人干预的情况下，靠每天消耗数万亿Token跑出来的。

Kimi的下一步：不只是好用，更要会“进化”

月之暗面的核心产品Kimi，正从“能回答问题的助手”，转向“能自我升级的系统”。杨植麟说：“我们不再追求‘更聪明’，而是追求‘会学习’。”

这意味着，Kimi未来更新不再依赖每月发一次新版本。它会在后台持续吸收新数据、自动生成训练样本、优化推理路径。用户问得越多，它越知道自己哪里弱；它会主动向开发者反馈：“我最近在处理金融报告时，对‘资产负债率’的理解偏差较大，建议补充3000条行业报告。”

更重要的是，月之暗面决定开放部分AI自研系统给开源社区。不是只放代码，而是开放“AI训练引擎”——开发者可以把自己的数据喂进去，让AI帮你生成训练任务、自动调参，甚至推荐适合你场景的模型结构。这不是“你用我的AI”，而是“我们一起让AI变得更聪明”。

真正的转折点，藏在算力之外

很多人以为AI进步靠的是GPU堆得更多、数据量更大。但真正改变游戏规则的，是“自主探索能力”的诞生。

就像人类从模仿动物飞行，到自己设计空气动力学；AI也终于不再只是“复读机”或“搜索增强版”，它开始像科学家一样，提出假设、设计实验、验证结论。这一步，比参数量翻倍重要得多。

杨植麟在演讲结尾说：“我们正在见证的，不是工具的升级，而是认知方式的革命。当AI能为自己找问题时，它离真正理解世界，就只差一步了。”

机器人人工智能 AI

Kimi AI导研自我进化自动化任务合成

CB科技站

大模型训练迈入AI主导研究第三阶段

大模型进入“AI自己教自己”时代

从“人教AI”到“AI带人”

Kimi的下一步：不只是好用，更要会“进化”

真正的转折点，藏在算力之外

与本文相关的文章