最新消息:关注人工智能 AI赋能新媒体运营

阶跃星辰 Step 3.5 Flash:专为 Agent 优化的开源轻量级模型

科技资讯 admin 浏览

Step3.5Flash 发布:为 Agent 打造的真正快速大脑

阶跃星辰(Stepfun)今天正式开源了 Step3.5Flash——一个专为智能体(Agent)设计的轻量级大模型。它不追求参数堆砌,而是专注一件事:让你的 Agent 跑得更快、更稳、更省成本。

如果你正在开发一个需要实时响应的自动化助手——比如能自己写代码、查价格、算数学题、拆解复杂任务的程序——那这个模型可能正是你一直在找的那块“积木”。

image.png

不是“差不多强”,而是真快

Step3.5Flash 的推理速度最高可达 350 TPS(每秒生成350个词)。这不是实验室里的理想值,而是实测结果。在代码生成任务中,它比很多主流模型快一倍以上。你输入一句“写个 WebGL2.0 的三维粒子动画”,它能在不到一秒内输出完整可运行的 HTML + JS 代码,连注释都写得清楚。

更关键的是,它在数学推理上不靠计算器,也不调外部工具。比如:“计算 1 到 1000 的阶乘累加和”,它直接在内部完成,答案准确,速度惊人。很多闭源模型还得靠工具调用,它直接“心算”。

1960亿参数?别被数字骗了

Step3.5Flash 总参数量是1960亿,听起来吓人,但实际每次推理只激活约110亿参数——这正是稀疏 MoE 架构的聪明之处:不是所有专家都干活,只叫最相关的几个。

更狠的是 MTP-3 技术:一次预测三个词。传统模型一个接一个猜,它直接连猜三个,推理效率直接翻倍。这不是噱头,实测中,同样一段代码生成任务,它比单 Token 预测快了 80% 以上。

长文本处理也没落下。256K 上下文不是摆设。你丢进去一份 50 页的产品需求文档,它能记住前后逻辑,自动提炼出任务清单,还能指出矛盾点。滑动窗口 + 全局注意力的混合设计,让它既不漏重点,也不被垃圾信息拖慢。

不是只能写代码,它能“干活”

我们测试了几个真实场景:

  • 用户说:“帮我看看淘宝、京东、拼多多上同款蓝牙耳机哪个最便宜。” Step3.5Flash 自动拆解成三个子任务:搜索关键词、提取价格、对比折扣,输出结构化结果。
  • 开发者给它一段模糊的 API 文档,它直接生成完整的 Python 请求示例,包括错误处理和重试逻辑。
  • 在 Apple M4 Max 上,用 16GB 显存就能跑起来,无需 A100 或 H100。本地部署不再是大厂专利。

它不是“能回答问题”的模型,而是“能执行任务”的引擎。

现在就能用,零成本上手

Step3.5Flash 已在三大平台全量开放:

  • OpenRouter:当前限时免费,直接调用,不用注册 API Key,适合快速测试。
  • GitHub:提供完整部署脚本,支持 vLLM、Text Generation WebUI,5分钟本地跑起来。
  • Hugging Face:可下载 GGUF、AWQ 量化版本,适合 M 系列芯片或消费级显卡。

我们实测了在 M4 Max 上的运行表现:使用 4-bit 量化后,显存占用仅 9.2GB,生成速度稳定在 210 TPS,比很多 7B 模型还快。你不需要高端服务器,一台 MacBook Pro 就能跑出生产力级表现。

下一步:Step4 已在路上

阶跃星辰团队已启动 Step4 的训练,目标是让 Agent 不仅能“做任务”,还能“自我优化”。他们公开邀请开发者参与定义下一代模型的优先级——你希望它更强的,是代码能力?多模态理解?还是长周期任务调度?

这不是一次“发布”,而是一次协作邀请。

如果你正在搭建自己的 Agent 工作流,现在就是升级大脑的最佳时机。免费、开源、够快、能跑在你的电脑上——这样的模型,不多见。