阶跃星辰开源Step3-VL-10B：小体积大性能，挑战200B级大模型

Step3-VL-10B 开源：100亿参数，干翻2000亿级模型

阶跃星辰刚刚开源了一款叫 Step3-VL-10B 的多模态模型——参数只有100亿，却在多个硬核测试里，把参数是它10到20倍的模型甩在了身后。这不是实验室里的纸上谈兵，而是实打实的性能碾压。

在 AIME（美国数学邀请赛）这类顶尖中学生数学竞赛题上，Step3-VL-10B 的准确率已经进入全球前三。它能看懂一张手写数学题的扫描图，识别公式、理解题意，然后一步步解出来，连带画图辅助推理都做得像人一样自然。更夸张的是，它在处理复杂图表、多图拼接、OCR识别模糊印刷体时，表现甚至超过了 Qwen3-VL-Thinking（2350亿参数）这种“巨无霸”开源模型，也逼近了 GPT-4o 和 Claude 3.5 的闭源水平。

为什么它能“以小博大”？

关键在两个地方：训练方式和推理机制。

传统多模态模型是“先看图，再读文字”，两套系统各自训练，最后拼在一起。Step3-VL-10B 是从头到尾一起学的——图片、文字、公式、坐标、表格，全部同步处理，像人一样“一眼看懂”整个画面。加上用了超大规模强化学习反复打磨，模型学会了“思考路径”，而不是死记硬背答案。

更厉害的是他们自研的 PaCoRe（并行协调推理）机制。简单说，就是让模型能同时启动多个“思维线程”：一个在认字，一个在算数，一个在画空间关系图，最后自动合并结果。这使得它在处理“数清图中所有咖啡杯”、“判断两个3D物体是否能叠放”、“从模糊截图里提取表格数据”这类任务时，错误率比同类模型低了近40%。

不用云端，手机也能跑

过去，这类高精度视觉推理能力只能在服务器上跑，动辄需要几十GB显存。而 Step3-VL-10B 的 Base 版本，经过量化后，可以在 iPhone 15 或安卓旗舰机上本地运行，无需联网。

这意味着什么？

你的手机拍照识别发票，不再靠云端服务器，隐私数据不出设备。
工业检测设备能实时识别电路板焊点缺陷，响应速度从秒级降到毫秒级。
教育类 App 可以直接分析孩子手写的数学草稿，给出批注，而不是传到云端等结果。

Think 版本则保留了更强的推理能力，适合部署在桌面端或边缘计算盒子，适合做智能助手、机器人视觉大脑这类对响应速度要求高的场景。

现在就能用

项目已经开源，不设门槛：

官网：完整技术说明和测试案例
论文：详细训练方法和实验数据
Hugging Face：直接下载模型权重
ModelScope：国内加速访问，支持一键部署

这不是又一个“吹得天花乱坠”的AI模型。这是第一个在真实世界复杂任务中，用不到200亿分之一的算力，干出顶级模型活的开源项目。开发者、研究人员、硬件厂商——如果你还在等一个真正能落地的多模态模型，现在，它来了。

Step3-VL-10B PaCoRe 多模态视觉语言模型端侧推理

CB科技站

阶跃星辰开源Step3-VL-10B：小体积大性能，挑战200B级大模型

Step3-VL-10B 开源：100亿参数，干翻2000亿级模型

为什么它能“以小博大”？

不用云端，手机也能跑

现在就能用

与本文相关的文章