阶跃星辰 Step 3.5 Flash：专为 Agent 优化的开源轻量级模型

Step3.5Flash 发布：为 Agent 打造的真正快速大脑

阶跃星辰（Stepfun）今天正式开源了 Step3.5Flash——一个专为智能体（Agent）设计的轻量级大模型。它不追求参数堆砌，而是专注一件事：让你的 Agent 跑得更快、更稳、更省成本。

如果你正在开发一个需要实时响应的自动化助手——比如能自己写代码、查价格、算数学题、拆解复杂任务的程序——那这个模型可能正是你一直在找的那块“积木”。

不是“差不多强”，而是真快

Step3.5Flash 的推理速度最高可达 350 TPS（每秒生成350个词）。这不是实验室里的理想值，而是实测结果。在代码生成任务中，它比很多主流模型快一倍以上。你输入一句“写个 WebGL2.0 的三维粒子动画”，它能在不到一秒内输出完整可运行的 HTML + JS 代码，连注释都写得清楚。

更关键的是，它在数学推理上不靠计算器，也不调外部工具。比如：“计算 1 到 1000 的阶乘累加和”，它直接在内部完成，答案准确，速度惊人。很多闭源模型还得靠工具调用，它直接“心算”。

1960亿参数？别被数字骗了

Step3.5Flash 总参数量是1960亿，听起来吓人，但实际每次推理只激活约110亿参数——这正是稀疏 MoE 架构的聪明之处：不是所有专家都干活，只叫最相关的几个。

更狠的是 MTP-3 技术：一次预测三个词。传统模型一个接一个猜，它直接连猜三个，推理效率直接翻倍。这不是噱头，实测中，同样一段代码生成任务，它比单 Token 预测快了 80% 以上。

长文本处理也没落下。256K 上下文不是摆设。你丢进去一份 50 页的产品需求文档，它能记住前后逻辑，自动提炼出任务清单，还能指出矛盾点。滑动窗口 + 全局注意力的混合设计，让它既不漏重点，也不被垃圾信息拖慢。

不是只能写代码，它能“干活”

我们测试了几个真实场景：

用户说：“帮我看看淘宝、京东、拼多多上同款蓝牙耳机哪个最便宜。” Step3.5Flash 自动拆解成三个子任务：搜索关键词、提取价格、对比折扣，输出结构化结果。
开发者给它一段模糊的 API 文档，它直接生成完整的 Python 请求示例，包括错误处理和重试逻辑。
在 Apple M4 Max 上，用 16GB 显存就能跑起来，无需 A100 或 H100。本地部署不再是大厂专利。

它不是“能回答问题”的模型，而是“能执行任务”的引擎。

现在就能用，零成本上手

Step3.5Flash 已在三大平台全量开放：

OpenRouter：当前限时免费，直接调用，不用注册 API Key，适合快速测试。
GitHub：提供完整部署脚本，支持 vLLM、Text Generation WebUI，5分钟本地跑起来。
Hugging Face：可下载 GGUF、AWQ 量化版本，适合 M 系列芯片或消费级显卡。

我们实测了在 M4 Max 上的运行表现：使用 4-bit 量化后，显存占用仅 9.2GB，生成速度稳定在 210 TPS，比很多 7B 模型还快。你不需要高端服务器，一台 MacBook Pro 就能跑出生产力级表现。

下一步：Step4 已在路上

阶跃星辰团队已启动 Step4 的训练，目标是让 Agent 不仅能“做任务”，还能“自我优化”。他们公开邀请开发者参与定义下一代模型的优先级——你希望它更强的，是代码能力？多模态理解？还是长周期任务调度？

这不是一次“发布”，而是一次协作邀请。

如果你正在搭建自己的 Agent 工作流，现在就是升级大脑的最佳时机。免费、开源、够快、能跑在你的电脑上——这样的模型，不多见。

CB科技站