vLLM背后的团队,正式成立AI基础设施公司Inferact
当多数人还在讨论GPT-5或Gemini Ultra的参数规模时,一群真正解决实际问题的工程师,已经悄悄把AI推理的成本砍掉了70%以上。他们不是来自硅谷的明星初创,也不是大厂的实验室,而是vLLM——这个被全球开发者默默使用的开源推理引擎的原始团队。
今天,这支团队正式宣布成立新公司Inferact,目标只有一个:让每一个企业、每一个开发者,都能以不到过去十分之一的成本,跑起自己的大模型服务。没有华丽的PPT,没有“颠覆未来”的口号,他们只做了一件事:把vLLM从GitHub上的一个工具,变成企业级的生产系统。
8亿美元估值,顶级机构抢着投
Inferact的种子轮融资刚结束,估值就达到了8亿美元,融资额1.5亿美元。这不是一笔小数目,尤其对一家还没推出商业产品的公司来说。但投资人看中的,不是概念,而是数据。
目前,vLLM已被OpenAI、Meta、Hugging Face、阿里云、腾讯云等机构在生产环境中使用。在Reddit、Stack Overflow和GitHub上,超过80%的开源大模型部署项目都默认使用vLLM。它不靠营销,靠的是实测:在同样的A100服务器上,vLLM比Hugging Face Transformers快3-5倍,内存占用减少一半以上。
本轮投资方阵容堪称“AI基建天花板”:Andreessen Horowitz、红杉资本、光速创投、Altimeter Capital、红点创投,以及真格基金。其中,a16z的合伙人公开表示:“我们投的不是下一个LLM,而是让LLM能被普通人用得起的底层引擎。”

为什么vLLM能火?因为它不玩虚的
在2023年之前,部署一个70亿参数的模型,需要4张A100,耗电2千瓦,每小时成本超过10美元。很多中小公司连测试都不敢碰。
vLLM的出现,改变了这一切。它通过“PagedAttention”技术,重新设计了GPU显存管理方式,让系统不再像传统框架那样“一块一块”地挤内存,而是像操作系统管理硬盘一样,把注意力机制的缓存碎片化、动态化。结果?同样的硬件,能同时跑更多请求,延迟更低,崩溃更少。
现在,vLLM已支持超过500种模型架构,包括Llama、Qwen、Mistral、Phi、Gemma,甚至国产模型。它能在NVIDIA、AMD、Intel、甚至华为昇腾芯片上跑通。在AWS、Azure、阿里云、Google Cloud的实例上,开发者只需改一行代码,就能把推理速度翻倍。
这不是实验室的玩具,而是被真实业务验证过的工具。比如,一家欧洲金融科技公司用vLLM替换了原来的推理系统,每月AI成本从$12万降到$3.5万,响应时间从1.2秒降到0.3秒,客户投诉率直接下降40%。
推理,才是AI赚钱的真正战场
训练模型是烧钱,推理才是赚钱。一个模型训练一次可能花几百万,但每天的推理调用可能持续数年,消耗的算力远超训练本身。
根据Synergy Research的数据,2024年全球AI推理市场规模已突破280亿美元,预计2027年将达850亿。而目前90%的推理服务仍运行在效率低下、成本高昂的框架上。
Inferact要做的,不是造一个新模型,而是让所有模型跑得更快、更省、更稳。他们已经上线了Inferact Cloud——一个开箱即用的推理服务平台,支持自动扩缩容、按需计费、实时监控。开发者不用管GPU调度、显存碎片、批处理优化,只要上传模型,就能直接接入API。
他们甚至和多家云厂商达成合作,把vLLM作为默认推荐引擎集成进他们的AI服务后台。这意味着,未来你用阿里云、腾讯云的AI服务,背后很可能跑的就是vLLM。
不是颠覆,是重建
Inferact没有喊“AI民主化”这种空话。他们做的事,像当年Nginx取代Apache,像MySQL在2000年代压倒Oracle。
他们相信:真正的技术革命,不是让更多人能训练模型,而是让更多人能用得起模型。当推理成本降到足够低,AI就不再是大厂的专利,而是每个创业公司、每个独立开发者、每个教育机构都能触手可及的工具。
今天,你可以在GitHub上免费下载vLLM。明天,你可能在云平台上点一下,就用上了Inferact的加速服务。
这场变革,没有发布会,没有明星代言,只有代码、数据和越来越低的账单。而它,正在悄悄改变AI的未来。