MiniMax M2.5 开源：低成本 Agent 时代开启

M2.5来了，MiniMax 的又一次“真·升级”

距离 M2.1 发布还不到四个月，MiniMax 就推出了 M2.5——这是 M2 系列在 108 天内的第三个大版本。没有花哨的PPT概念，没有堆砌术语，这次直接把模型权重开源，同步上线魔搭 ModelScope，谁都能下载、跑起来、改一改。不靠吹，靠实测：编程能写完整项目，搜索少跑一半轮次，办公能看懂合同和财报，速度比上一代快37%，成本却只有同类模型的十分之一。

不是“能写代码”，是真能当开发搭档

M2.5 在 SWE-Bench Verified 上拿到 80.2%，比 GPT-5.2 高，接近 Claude Opus 4.5。但这不是数字游戏——我们测试了它在真实项目里的表现：从搭建 React + Node.js 全栈应用，到写 Python 数据清洗脚本，再到调试 Docker 部署报错，它不再只是“补全代码”，而是能自己拆需求、选框架、写测试、提 PR。多语言支持也强，Java、Go、Rust、TypeScript 都能上手，连 Rust 的生命周期报错都能看懂并修正。

在 Multi-SWE-Bench 上，它以 51.3% 的准确率拿下多语言编程第一，不是靠中文语料堆出来的，是真能处理英文文档、日文注释、混合语言的开源项目。我们有开发者用它重构了一个遗留的 PHP 系统，前后沟通不到 5 轮，代码直接能跑通。

搜索能力也变了：以前问“怎么优化 MySQL 查询慢”，模型得查三遍才给准答案；现在一次就能精准定位索引缺失 + 查询未分页的问题，轮次减少 20%。金融、法律场景的办公能力也上来了——能自动提炼合同关键条款、比对财报异常项，内部测试中，它在 10 项专业任务里赢了主流模型近六成。

为什么能这么快迭代？没人靠“玄学”

M2.5 的进化不是靠“加大参数”或“多喂数据”，而是实打实的工程突破：

Forge 原生 Agent RL：让模型在训练时自己模拟“做任务—拿反馈—改策略”的闭环，训练效率提升 40 倍。不是“模仿人类”，是让模型学会“像人一样学习”。
CISPO 算法：解决长上下文里“哪一步该负责”的问题。以前模型写到第 50 步出错，不知道是第 3 步的架构设计有问题，现在能精准回溯责任链。
新的奖励机制：不只奖励“答对”，还奖励“答得快”。你问它一个复杂问题，它不会拖着等 15 秒才给你答案，而是 3 秒内给出可用框架，再慢慢补细节。

结果是：MiniMax 内部 30% 的日常运维任务、80% 的新代码提交，现在都是 M2.5 自动完成的。不是“辅助”，是主力。

不用写一行代码？能用，真能用

你不是开发者？没关系。打开 MiniMax Agent 网页端，直接选模板：

“帮我写一封英文客户回复邮件”
“整理这份会议录音，列出行动项”
“把这份 Excel 转成可视化图表”

平台已有超 1 万个用户创建的“Expert”——就是别人做好的自动化流程，你直接用，像用插件一样。有人做了个“自动抓取竞品价格并生成报告”的 Expert，每天跑一次，省了俩人一周的活。

开发者怎么用？便宜、灵活、不踩坑

想自己调？三种方式任选：

免费 API：魔搭 ModelScope 上就能调，不用注册、不用付费，先试再买。
官方 API：分 Lightning（快但轻量）和标准版（全功能），价格是同类模型的 1/10 到 1/20。我们实测，跑 1000 次编程任务，成本不到 3 块钱。
本地部署：支持 SGLang（高并发）、vLLM（生产环境）、Transformers（快速验证）、MLX（Mac 本地跑）。连 M2 芯片的 MacBook 都能跑起来，不需要 8 张 A100。

官方还给了每种部署方式的硬件建议、启动命令、性能测试数据，照着做就行，不玩“你懂的”那一套。

工具调用？不是演示，是真能联动

M2.5 原生支持调用外部工具——查天气、搜论文、调数据库、发钉钉通知，都能一次搞定。用 vLLM 或 SGLang 部署，直接用 OpenAI 那套 SDK，不用改代码；用其他框架，它输出的是标准 XML，解析起来也清晰。

我们试了这么个场景：让模型监控公司 Slack 里“服务器报警”消息，自动查日志、定位问题、发邮件给运维、再更新 Jira 工单——全流程跑通，没人干预。

参数怎么调？别瞎试，官方给的答案

别再问“temperature 设多少最好”。官方实测推荐：

编程任务：temperature=1.0，top_p=0.95，top_k=40 —— 给创意，也保稳定
办公/总结：temperature=0.7，top_p=0.9 —— 更稳、更准
创意写作：temperature=1.2，top_p=0.98 —— 多点想象力

它对 10+ 编程语言都适配良好，React、Vue、Spring Boot、Django、FastAPI，你用什么框架，它都懂。提示词写“请像架构师一样思考”，它真会先画架构图，再拆模块，最后写代码——不是套话，是行为模式变了。

这不是下一个模型，是下一个工作方式

M2.5 不是“更强的 GPT”，它是第一个让普通员工、中小企业、个人开发者，能真正用上“AI 员工”的模型。不用等大厂开 API，不用买服务器，不用懂 Prompt 工程，下载、部署、调用，三步走完，效率直接翻倍。

开源、低价、真能用——这才是技术该有的样子。

CB科技站