Meta于周三(4月8日)发布新一代AI模型Muse Spark,这是超级智能实验室(Meta Superintelligence Labs,MSL)打造的Muse系列首款模型,主打多模态推理与多智能体协作能力,并已正式上线美国市场的Meta AI应用与网站,后续将扩展至WhatsApp、Instagram、Facebook与Messenger等服务,预计在未来几周内逐步推向全球市场。

2025年6月成立的Meta超级智能实验室由Alexandr Wang领导,是Meta核心AI研发单位,整合了FAIR(基础AI研究)与生成式AI团队,负责开发新一代通用人工智能与个人超级智能。而Meta AI是一个独立的AI助手程序,提供网页版与移动端,2025年4月上线时采用的是Llama 4模型。
不同于Meta过去以开源基础模型为主的Llama系列,Muse Spark转向以产品应用为核心设计,直接集成到Meta AI及旗下社交与通信服务中,强调实时交互与任务处理能力,反映Meta从模型提供者向AI产品平台的战略转变。
在功能上,Muse Spark是一款原生多模态模型,可同时理解文本与图像,并支持工具调用与视觉思维链,使其不仅能生成回答,还能处理多步骤任务。此外,在其Contemplating推理模式下,Muse Spark可启动多个子智能体进行分工与并行处理,例如同时规划行程、比较选项与收集信息,提升整体效率与结果质量,展现其从单一模型向AI协作系统演进的设计方向。
Meta也公布了Muse Spark在多项基准测试中的表现,涵盖多模态理解、推理、医疗与智能体任务等多个方面。其中,在图像与跨模态理解测试CharXiv与MMMU Pro中,Muse Spark表现优于或接近GPT与Gemini等模型;在视觉问答测试SimpleVQA中也保持竞争力。在高难度推理方面,GPQA Diamond(博士级科学推理测试)与Humanity's Last Exam(跨领域复杂问题测试)显示其已达到第一梯队水平。
在医疗领域,Muse Spark在HealthBench(开放式医疗问答测试)与MedXpertQA(医学选择题测试)中也展现出稳定表现,表明其在健康与医疗知识理解方面具备能力。此外,在编程能力测试LiveCodeBench与软件修复测试SWE-Bench,以及智能体任务测试DeepSearchQA与Terminal-Bench中,Muse Spark同样具备一定竞争力,体现其在多步骤任务与工具操作上的表现。

在Contemplating推理模式下,Muse Spark在跨领域推理测试Humanity's Last Exam的无工具情境下达到50.2%,高于Gemini 3.1 Deep Think与GPT 5.4 Pro;在可使用工具的情境下则达到58.4%,接近GPT 5.4 Pro水平。在科学研究测试FrontierScience Research中,Muse Spark达到38.3%,优于Gemini的23.3%,并略高于GPT的36.7%,显示其在复杂推理与科学问题处理上的竞争力。
Meta表示,Muse Spark除集成至Meta AI及旗下产品外,也将通过API向部分合作伙伴开放测试与接入,逐步扩大应用范围,并随着全球部署推进,扩展至更多服务与市场,朝着个人超级智能的长期目标迈进。