a16z领投1.5亿美元，Inferact打响AI推理成本降本之战

vLLM 团队创立 Inferact，获 1.5 亿美元种子轮融资

继 vLLM 在开源社区掀起热潮后，其核心开发团队正式成立初创公司 Inferact，并宣布完成 1.5 亿美元种子轮融资，投前估值达 8 亿美元。本轮融资由 Andreessen Horowitz（a16z）和 Lightspeed Venture Partners 联合领投，多家知名风投跟投，显示出市场对 AI 推理底层技术的强烈信心。

Inferact 的创始团队来自加州大学伯克利分校，核心成员均参与过 vLLM 的原始开发。vLLM 之所以在开发者中广受推崇，是因为它用一套全新的显存管理机制，让大模型推理速度提升数倍，同时大幅降低 GPU 资源消耗。简单说，过去需要 8 张 A100 才能跑通的线上服务，现在可能 2 张就够了——这对企业来说，意味着成本直降 70% 以上。

如今，vLLM 已成为行业事实标准。亚马逊云服务（AWS）在其 SageMaker 平台中内置支持；亚马逊购物、Reddit、Coinbase 等头部企业都在生产环境中用它驱动聊天机器人、内容生成和搜索推荐。一位一线工程师曾公开表示：“我们换掉其他框架，就是因为 vLLM 让我们的服务响应时间从 1.2 秒降到 0.3 秒，用户留存率明显上升。”

伯克利的“推理双子星”正在重塑 AI 基础设施

Inferact 不是第一个从伯克利实验室走出的推理公司。就在几个月前，由 SGLang 框架商业化而来的 RadixArk 刚刚完成 4 亿美元融资，投资方为 Accel。两家公司虽然技术路线不同，但目标一致：让大模型不再只是实验室里的“性能秀”，而是能稳定、便宜、大规模跑在真实业务里的工具。

过去一年，AI 领域的焦点已从“谁训出更大的模型”转向“谁能更高效地用起来”。训练成本高、周期长，但推理才是每天数亿次调用的真正战场。一个模型再强，如果每次回答用户都要等 2 秒、耗 50 美元，那它就不可能落地。

Inferact 的下一步计划是推出企业级推理平台，提供一键部署、自动扩缩容、实时监控和成本优化工具。他们不打算做模型，而是做“模型的发动机”——就像 Linux 之于操作系统，vLLM 正在成为 AI 应用背后的隐形支柱。

目前，全球已有超过 10 万开发者在 GitHub 上 Star vLLM，月均下载量超 500 万次。而 Inferact 的创始团队说：“我们不是要卖软件，而是要让每个公司都能以最低成本，拥有和 OpenAI 一样的推理能力。”

机器人，AI

CB科技站

a16z领投1.5亿美元，Inferact打响AI推理成本降本之战

vLLM 团队创立 Inferact，获 1.5 亿美元种子轮融资

伯克利的“推理双子星”正在重塑 AI 基础设施

与本文相关的文章