前OpenAI安全VP翁荔长文拆解Scaling Laws：模型可能喂错数据

Scaling Laws 被重新拆解：数据配比可能从一开始就走偏

前OpenAI安全研究副总裁翁荔在停更13个月后，于个人博客Lil'Log发布逾万字长文《Scaling Laws, Carefully》。文章从头拆解支撑大模型行业数百亿美元投入的Scaling Laws，指出当前模型的数据配比很可能从一开始就走偏了。

2020年，OpenAI研究员Jared Kaplan发表论文提出，在log-log坐标上，训练损失随参数量、数据量和算力呈幂律下降。模型规模应比数据增长更快。GPT-3 正是这一结论的产物，采用1750亿参数，训练数据仅3000亿token。

两年后，DeepMind团队用更大规模实验推翻了上述结论。他们将2800亿参数的Gopher与700亿参数的Chinchilla在同等算力下对比。后者参数仅为前者四分之一，训练数据却是四倍多。结果Chinchilla在所有评测上均优于Gopher。Chinchilla揭示的规律是，参数与数据应等比增长，最佳比例约为1:20。这一结论也解释了为何后来Llama、DeepSeek等模型参数量不及GPT-3，性能却远超它。

翁荔分析了早期结论偏差的根源。Kaplan的实验最大模型仅15亿参数，小规模区间的拟合差异外推至万亿级别后，演变为系统性错误。同时，Kaplan未将embedding层参数计入总数，这一口径差异在小模型上影响极大。2024年，Epoch AI团队逐行复现Chinchilla拟合代码时，发现两个程序错误。损失函数被设定为取均值而非求和，导致优化器误判收敛；核心幂律指数被四舍五入至两位数，产生虚假精度。修正后的数据再次印证了等比增长的结论。

数据枯竭与边际收益递减

上述讨论均以训练数据无限且不重复为前提。但高质量文本数据预计2026至2028年即告枯竭。研究显示，重复数据的有效价值呈指数衰减，每多训练一轮，边际收益急剧递减。翁荔在文中嵌入的交互式模拟器直观展示了工程细节的敏感性。仅调整拟合精度或噪声水平，外推预测的结果就可能产生巨大差异。

翁荔写下总结判断：Scaling Laws不是物理定律。它是对工程细节高度敏感的观测性指南。

大模型算力规模定律预训练

CB科技站

前OpenAI安全VP翁荔长文拆解Scaling Laws：模型可能喂错数据

Scaling Laws 被重新拆解：数据配比可能从一开始就走偏

数据枯竭与边际收益递减

与本文相关的文章