Meta发布开放权重CWM，用世界模型增强代码生成能力

Meta发布专攻代码生成的326亿参数世界模型CWM

Meta研究世界模型对代码生成能力的提升，发布开放权重326亿参数（32.6B）模型Code World Model（CWM），专门针对代码生成场景。与仅以静态代码进行训练的方法不同，CWM在预训练与强化学习之间加入中期训练（Mid-training），引入大量来自Python解释器与容器化环境的观察、动作轨迹，使模型不仅能学会语法与范式，还能从实际执行过程中推断状态变化，显著提升错误定位与修复、长上下文程序分析以及多轮次系统交互的效率与稳定性。

CWM的训练目标是在可验证场景中增强推理与规划能力。其中，在中期训练阶段特别引入两类可观测的数据来源：其一是大量Python程序在容器中的内存追踪数据，其二是多轮次代理与计算环境的交互轨迹。随后通过多任务、多轮次的可验证强化学习（RL）进行后训练，使模型能够逐步模拟程序执行与错误修复过程，贴近开发者日常的运行、观察、修正流程。

从基准测试成绩来看，CWM在SWE-bench Verified上，未启用测试时扩展机制（Test-time Scaling, TTS）的单次作答正确率为53.9%，启用后提升至65.8%，显示在代理式工作流与TTS下有明显的性能提升。在LiveCodeBench v5/v6上分别达到68.6/63.5，表现处于开源模型前列水平，与Qwen3-Coder-32B、Devstral-1.1-24B互有领先。在数学任务中，Math-500得分为96.6%，属于顶尖水平，但在AIME-24/25上为76.0/68.2，落后于针对竞赛题优化的Magistral与Qwen3系列模型。

整体来看，CWM并非全能第一，但在程序理解、错误修复与容器化执行等工程导向场景中表现突出。若目标是长上下文程序分析、可验证修复与系统交互，CWM的世界模型训练与TTS设计更具实用价值。

CWM的价值在于提供一个能观察、推理、修正的实验平台，便于分析世界模型对代码生成与规划的影响，并测试不同训练阶段对最终行为的贡献。研究人员可从发布的各阶段权重入手，评估中期训练与强化学习在可验证任务中的效果，并观察长上下文与多轮次交互下的稳定性与可复现性。

CB科技站

Meta发布开放权重CWM，用世界模型增强代码生成能力

Meta发布专攻代码生成的326亿参数世界模型CWM

与本文相关的文章