Rnj-1开源：8B模型性能超越20B，代码、数学、工具能力全面领先

Essential 发布 RNJ-1：8B 小模型，打出 20B 的拳，背后站着《Attention Is All You Need》的作者

就在昨天，一家名不见经传的团队 Essential，悄无声息地发布了两款开源模型：RNJ-1 Base 和 RNJ-1 Instruct。参数规模只有 8B，却在多个权威基准上直接“越级挑战”20B 级别的开源模型，甚至在部分场景中逼近 GPT-4o 的表现。更让人震惊的是——这家团队的 CEO，正是那篇改变人工智能历史的论文《Attention Is All You Need》的第一作者：阿希什·瓦斯瓦尼（Ashish Vaswani）。

消息一出，Reddit 的 r/MachineLearning 板块瞬间炸锅。版主 bot 主动发帖置顶，热帖点赞破 1.2 万，评论区刷屏：“My god, Vaswani is back.”“这哪是新模型？这是 AI 领域的‘诺曼底登陆’。”

性能炸裂：不是“接近大模型”，是直接跨进大模型区

RNJ-1 的成绩单，硬到让人怀疑是不是数据造假：

代码生成：在 HumanEval+、MBPP+、BigCodeBench 上全面领先同量级模型，部分任务甚至超越了 20B 的 GPT-OSS 和 Llama 3.1 20B。
软件工程：SWE-bench Verified 得分高达 62.1%，是同级别模型平均分（6.2%）的整整 10 倍。官方称“已进入大模型区间”——这不是营销话术，而是实测：模型能独立阅读 PR、理解上下文、修复多个文件的 bug，甚至能生成可运行的测试用例。
数学推理：AIME’25（美国数学邀请赛）得分稳居开源 8B 模型第一；GPQA-Diamond（高难度理科问答）得分 54.7%，仅落后榜首 1.2 个百分点，而榜首是 70B+ 的模型。
工具调用：在 Berkeley BFCL 榜单中，Instruct 版本冲进 Top 3，击败了 Mistral 8B、Qwen2.5-7B 等一众竞品，成为目前最强的 8B 工具调用模型。

更离谱的是，这些成绩是在原生 32k 上下文基础上，通过 YaRN 扩展到 128k 仍保持稳定输出的情况下取得的。NVFP4 量化后，推理精度几乎无损，B200 上吞吐量直接翻倍——这意味着，你用一张消费级显卡，就能跑出堪比 70B 模型的推理效率。

技术细节：不靠堆参数，靠“真功夫”

RNJ-1 并非简单照搬 Gemma 3。它的架构融合了多个前沿设计：

全局注意力 + YaRN：突破传统滑动窗口限制，实现真正长上下文建模，支持 128k+ 长文档理解，且在多轮对话中不丢失关键信息。
执行轨迹训练（Execution Traces）：这是 RNJ-1 在代码能力上“封神”的核心。模型不仅看代码，还看代码运行时的每一步变量变化、错误堆栈、调试日志——就像一个资深工程师在盯着 IDE 调试程序。这解释了为什么它在 SWE-bench 上能“自己修 PR”。
Muon 优化器：取代传统 AdamW，算力利用率提升 30%，训练更稳定，收敛更快，让小团队也能高效训练 8B 模型。
STEM 语料严格配比：训练数据中 STEM（科学、技术、工程、数学）内容占比超 40%，并经过多轮去重与难度分级，避免“伪知识”污染。

团队甚至在训练中加入了“反向提示”机制：当模型给出错误答案时，系统会自动生成“错误推理链”，让模型学会识别自己的逻辑漏洞——这招，连 Meta 的 Llama 3 都没公开用过。

省钱狂魔：30 人团队，一年省下数百万美元

你很难想象，这支能打出如此战绩的团队，全职成员不到 30 人，没有 Google 或 Meta 的算力资源，却把成本压到极致：

混用 TPU v5p 和 AMD MI300X，用 JAX 统一调度，避免框架碎片化。
把 Spark 从 GCP 托管服务迁移到 GKE 自建集群，抢占 preemptible 实例，单月节省 $87 万。
节点宕机 30 秒内自动恢复，训练任务断点续跑，不浪费一度电。
训练数据清洗用自研工具，人工审核成本降低 90%。

CEO 瓦斯瓦尼的原话是：“别内耗，回去练基本功。”他们不追热点，不搞“微调即正义”，而是坚持“先预训练到极致，再谈微调”。项目分两期：先用 200M–2B 小模型验证方向，确认有效后，才敢上 8B 旗舰。

量化之争：Q4 已这么强，Q5/Q6 会有多恐怖？

目前 RNJ-1 只发布了 Q4 量化版本，但社区已经疯狂测试 Q6 版本的潜力。一位独立评测者用私有数据集（涵盖电子电路、啤酒酿造、热力学模拟等冷门领域）对比发现：

RNJ-1 Q4 在 80% 的任务上超越 Qwen3-4B（2507）——一个曾被奉为“4B 神话”的模型。
Granite v4 在部分结构化推理任务上反超，但前提是使用 Q6 量化；而 RNJ-1 仍用 Q4，且未做任何专门优化。

“别忘了，这只是 Essential 的第一代模型。”一位资深研究员在评论区写道，“如果他们能把 Q6 做出来，再配上 MoE 架构，2025 年的 8B 模型，可能就是新的基线。”

目前，社区已有人开始尝试将 RNJ-1 Q4 量化为 GGUF 格式，部署在 M4 Max 上本地运行，推理速度稳定在 45 tokens/s，内存占用仅 5.2GB——这意味着，你可以在 MacBook 上跑一个“能自己写代码、解数学题、修 bug”的 AI 助手。

这不是终点，是工具链的起点

当被问及“这是不是大招的前奏？”时，Essential 团队的回应很冷静：

“RNJ-1 只是我们内部工具链的 1.0。我们真正想要的，是让模型能帮我们写框架、自动跑实验、生成论文草稿、甚至改 CI/CD 脚本。等它能独立完成这些，2.0 才是真正的正菜。”

换句话说，他们不是在造一个“能聊天的 AI”，而是在造一个“能当工程师的 AI”。

目前，RNJ-1 已在 Hugging Face 开源，支持 Transformers、vLLM、Ollama 等主流框架。模型权重、训练数据配方、推理脚本全部公开。没有闭源后门，没有商业限制——这在当前 AI 领域，几乎是一种“反常”。

为什么这很重要？

过去三年，AI 的进步似乎被“参数规模”绑架。1B、7B、70B、200B……模型越来越大，训练成本越来越高，普通人越来越难参与。

RNJ-1 的出现，打破了这个幻觉：

你不需要 100 亿美元预算，也能做出顶尖模型。
你不需要海量标注数据，只要语料够“硬”，就能超越海量清洗的开源数据集。
你不需要大厂背书，只要团队有信念、有方法，就能掀翻格局。

阿希什·瓦斯瓦尼，曾用一篇论文开启 Transformer 时代。如今，他带着一支小团队，用 8B 模型，重新定义了“什么是真正的 AI 效率”。

这不只是一个模型的发布。

这是对整个行业的一记耳光。

CB科技站