最新消息:关注人工智能 AI赋能新媒体运营

a16z领投1.5亿美元,Inferact打响AI推理成本降本之战

科技资讯 admin 浏览

vLLM 团队创立 Inferact,获 1.5 亿美元种子轮融资

继 vLLM 在开源社区掀起热潮后,其核心开发团队正式成立初创公司 Inferact,并宣布完成 1.5 亿美元种子轮融资,投前估值达 8 亿美元。本轮融资由 Andreessen Horowitz(a16z)和 Lightspeed Venture Partners 联合领投,多家知名风投跟投,显示出市场对 AI 推理底层技术的强烈信心。

Inferact 的创始团队来自加州大学伯克利分校,核心成员均参与过 vLLM 的原始开发。vLLM 之所以在开发者中广受推崇,是因为它用一套全新的显存管理机制,让大模型推理速度提升数倍,同时大幅降低 GPU 资源消耗。简单说,过去需要 8 张 A100 才能跑通的线上服务,现在可能 2 张就够了——这对企业来说,意味着成本直降 70% 以上。

如今,vLLM 已成为行业事实标准。亚马逊云服务(AWS)在其 SageMaker 平台中内置支持;亚马逊购物、Reddit、Coinbase 等头部企业都在生产环境中用它驱动聊天机器人、内容生成和搜索推荐。一位一线工程师曾公开表示:“我们换掉其他框架,就是因为 vLLM 让我们的服务响应时间从 1.2 秒降到 0.3 秒,用户留存率明显上升。”

伯克利的“推理双子星”正在重塑 AI 基础设施

Inferact 不是第一个从伯克利实验室走出的推理公司。就在几个月前,由 SGLang 框架商业化而来的 RadixArk 刚刚完成 4 亿美元融资,投资方为 Accel。两家公司虽然技术路线不同,但目标一致:让大模型不再只是实验室里的“性能秀”,而是能稳定、便宜、大规模跑在真实业务里的工具。

过去一年,AI 领域的焦点已从“谁训出更大的模型”转向“谁能更高效地用起来”。训练成本高、周期长,但推理才是每天数亿次调用的真正战场。一个模型再强,如果每次回答用户都要等 2 秒、耗 50 美元,那它就不可能落地。

Inferact 的下一步计划是推出企业级推理平台,提供一键部署、自动扩缩容、实时监控和成本优化工具。他们不打算做模型,而是做“模型的发动机”——就像 Linux 之于操作系统,vLLM 正在成为 AI 应用背后的隐形支柱。

目前,全球已有超过 10 万开发者在 GitHub 上 Star vLLM,月均下载量超 500 万次。而 Inferact 的创始团队说:“我们不是要卖软件,而是要让每个公司都能以最低成本,拥有和 OpenAI 一样的推理能力。”

机器人,AI