Scaling Laws 被重新拆解:数据配比可能从一开始就走偏
前OpenAI安全研究副总裁翁荔在停更13个月后,于个人博客Lil'Log发布逾万字长文《Scaling Laws, Carefully》。文章从头拆解支撑大模型行业数百亿美元投入的Scaling Laws,指出当前模型的数据配比很可能从一开始就走偏了。
2020年,OpenAI研究员Jared Kaplan发表论文提出,在log-log坐标上,训练损失随参数量、数据量和算力呈幂律下降。模型规模应比数据增长更快。GPT-3 正是这一结论的产物,采用1750亿参数,训练数据仅3000亿token。
两年后,DeepMind团队用更大规模实验推翻了上述结论。他们将2800亿参数的Gopher与700亿参数的Chinchilla在同等算力下对比。后者参数仅为前者四分之一,训练数据却是四倍多。结果Chinchilla在所有评测上均优于Gopher。Chinchilla揭示的规律是,参数与数据应等比增长,最佳比例约为1:20。这一结论也解释了为何后来Llama、DeepSeek等模型参数量不及GPT-3,性能却远超它。
翁荔分析了早期结论偏差的根源。Kaplan的实验最大模型仅15亿参数,小规模区间的拟合差异外推至万亿级别后,演变为系统性错误。同时,Kaplan未将embedding层参数计入总数,这一口径差异在小模型上影响极大。2024年,Epoch AI团队逐行复现Chinchilla拟合代码时,发现两个程序错误。损失函数被设定为取均值而非求和,导致优化器误判收敛;核心幂律指数被四舍五入至两位数,产生虚假精度。修正后的数据再次印证了等比增长的结论。
数据枯竭与边际收益递减
上述讨论均以训练数据无限且不重复为前提。但高质量文本数据预计2026至2028年即告枯竭。研究显示,重复数据的有效价值呈指数衰减,每多训练一轮,边际收益急剧递减。翁荔在文中嵌入的交互式模拟器直观展示了工程细节的敏感性。仅调整拟合精度或噪声水平,外推预测的结果就可能产生巨大差异。
翁荔写下总结判断:Scaling Laws不是物理定律。它是对工程细节高度敏感的观测性指南。