腾讯混元与人大高瓴联合开源大模型规划评测框架 PlanningBench
腾讯混元团队与中国人民大学高瓴人工智能学院近日开源 PlanningBench。这是一个面向大语言模型规划能力的可扩展数据生成框架,主要用于能力评测与模型训练。
PlanningBench 从实际规划场景切入,系统化抽象了任务、约束和难度指标。框架覆盖超过 30 种规划任务,具体包含日程排布、资源分配、人力排班、路径调度、生产运营和应急服务六大类。多任务设计能避免模型在单一领域盲目刷题,提升应对多样化实际场景的适应性。
难度控制是这套框架的核心之一。系统通过拆解任务结构、约束层级和资源紧张度来调节数据难度,而不是靠简单拉长提示词。每条生成的实例都附带 checklist(检查清单),用于逐项核对模型输出是否满足输入条件、遵守资源限制以及达成目标最优性。评测逻辑同时盯住局部合规和全局成功。这种设计能精准挑出那些单看细节合理、整体却无法执行的计划。复杂约束下的模型短板因此更容易被定位。
框架不仅负责找问题,也提供训练信号。PlanningBench 输出的可验证数据能为模型提供稳定且可迁移的奖励反馈。使用该数据训练后,模型在未见过的规划基准和通用任务上表现显著提升。学习信号展现出较强的通用性。整套体系跑通了从真实场景驱动、闭环数据生成到训练能力迁移的完整链路。