最新消息:关注人工智能 AI赋能新媒体运营

阶跃星辰开源Step3-VL-10B:小体积大性能,挑战200B级大模型

科技资讯 admin 浏览

Step3-VL-10B 开源:100亿参数,干翻2000亿级模型

阶跃星辰刚刚开源了一款叫 Step3-VL-10B 的多模态模型——参数只有100亿,却在多个硬核测试里,把参数是它10到20倍的模型甩在了身后。这不是实验室里的纸上谈兵,而是实打实的性能碾压。

在 AIME(美国数学邀请赛)这类顶尖中学生数学竞赛题上,Step3-VL-10B 的准确率已经进入全球前三。它能看懂一张手写数学题的扫描图,识别公式、理解题意,然后一步步解出来,连带画图辅助推理都做得像人一样自然。更夸张的是,它在处理复杂图表、多图拼接、OCR识别模糊印刷体时,表现甚至超过了 Qwen3-VL-Thinking(2350亿参数)这种“巨无霸”开源模型,也逼近了 GPT-4o 和 Claude 3.5 的闭源水平。

image.png

为什么它能“以小博大”?

关键在两个地方:训练方式和推理机制。

传统多模态模型是“先看图,再读文字”,两套系统各自训练,最后拼在一起。Step3-VL-10B 是从头到尾一起学的——图片、文字、公式、坐标、表格,全部同步处理,像人一样“一眼看懂”整个画面。加上用了超大规模强化学习反复打磨,模型学会了“思考路径”,而不是死记硬背答案。

更厉害的是他们自研的 PaCoRe(并行协调推理)机制。简单说,就是让模型能同时启动多个“思维线程”:一个在认字,一个在算数,一个在画空间关系图,最后自动合并结果。这使得它在处理“数清图中所有咖啡杯”、“判断两个3D物体是否能叠放”、“从模糊截图里提取表格数据”这类任务时,错误率比同类模型低了近40%。

不用云端,手机也能跑

过去,这类高精度视觉推理能力只能在服务器上跑,动辄需要几十GB显存。而 Step3-VL-10B 的 Base 版本,经过量化后,可以在 iPhone 15 或安卓旗舰机上本地运行,无需联网。

这意味着什么?

  • 你的手机拍照识别发票,不再靠云端服务器,隐私数据不出设备。
  • 工业检测设备能实时识别电路板焊点缺陷,响应速度从秒级降到毫秒级。
  • 教育类 App 可以直接分析孩子手写的数学草稿,给出批注,而不是传到云端等结果。

Think 版本则保留了更强的推理能力,适合部署在桌面端或边缘计算盒子,适合做智能助手、机器人视觉大脑这类对响应速度要求高的场景。

现在就能用

项目已经开源,不设门槛:

  • 官网:完整技术说明和测试案例
  • 论文:详细训练方法和实验数据
  • Hugging Face:直接下载模型权重
  • ModelScope:国内加速访问,支持一键部署

这不是又一个“吹得天花乱坠”的AI模型。这是第一个在真实世界复杂任务中,用不到200亿分之一的算力,干出顶级模型活的开源项目。开发者、研究人员、硬件厂商——如果你还在等一个真正能落地的多模态模型,现在,它来了。