Modal Labs:AI推理赛道的隐形冠军
当所有人都在谈论GPT-5和多模态大模型时,一家名叫Modal Labs的初创公司,正在悄悄改变AI运行的方式。据四位知情人士透露,Modal正在与包括General Catalyst在内的多家顶级风投谈判新一轮融资,目标估值直指25亿美元——距离去年9月11亿美元的B轮估值,仅用不到五个月时间,翻了两倍多。
创始人Erik Bernhardsson对外回应得相当克制:“我们没在‘积极融资’,但确实和不少投资机构聊过。”这种低调,反而让市场更想探个究竟——这家公司到底靠什么,让资本如此疯狂押注?
不造模型,专治“AI烧钱”
Modal不训练大模型,也不做聊天机器人。它干的是一件没人爱提、但所有公司都头疼的事:让AI回答问题更快、更便宜。
想象一下:你用的客服AI、内容生成工具、代码助手,背后每一句回复,都是在消耗算力。一个用户提问,可能要动用几十美元的GPU算力。当用户量从百万涨到千万,这笔账就吓人了。Netflix一年在视频编码上花几亿美元,而今天,很多AI公司每年的推理成本,已经逼近甚至超过训练成本。
Modal的解决方案很简单:把分散的GPU资源打包成一个高效、弹性、低延迟的“推理引擎”。企业不用自己买服务器、调优化参数、应付突发流量,只需像调用云服务一样,调用Modal的API。结果是:响应速度平均快40%,成本降30%以上。
目前,Modal的年化收入(ARR)已达到5000万美元,客户名单虽未公开,但业内普遍认为,其客户覆盖了多家知名AI应用公司——从AI写作工具到企业级智能客服,都在悄悄用它来压降算力成本。
AI的“水电煤”,正在被重新定义
2024年以前,AI创业的关键词是“参数量”、“开源模型”、“多模态突破”。到了2025年,投资人开始问同一个问题:“你跑一次推理多少钱?”
这不是玩笑。据行业数据显示,2024年全球AI推理支出首次超过训练支出,预计到2026年,这一比例将扩大到3:1。换句话说,模型跑起来的代价,比造它还贵。
Modal不是唯一一家做这事的——Runway、Replicate、Baseten都在抢这个市场。但它的优势在于:工程师出身的团队,对底层算力调度有近乎偏执的优化能力。他们不靠营销,靠的是客户口碑:一家公司换用Modal后,月度GPU账单从18万美元降到9万,直接省下100万美元/年。
有投资人私下说:“他们不是在卖服务,是在卖‘省下来的电费’。”
谁在背后推动这场变革?
这波资本热潮背后,是现实的倒逼。大型AI公司开始意识到:模型再强,如果响应慢、成本高,用户就会跑。一个聊天机器人如果等3秒才回复,用户可能已经关掉页面。而Modal的系统,能在200毫秒内完成一次高质量推理——比人类眨眼还快。
更关键的是,它的技术不绑定任何一家大厂。不依赖OpenAI、不绑定Anthropic,企业可以用自己的模型,跑在Modal的基础设施上。这种中立性,让它在企业客户中口碑极佳——尤其在金融、医疗、法律这些对合规和成本敏感的行业。
有消息指出,Modal正在与几家欧洲大型银行和保险公司洽谈合作,用于自动化合同审查和客户问答系统。这些客户不关心你用的是Llama还是GPT,只关心:能不能稳定、便宜、合规地跑起来。
未来:不只是省钱,更是控制权
Modal的野心,早已超出“算力服务商”的范畴。它正在构建一个开放的AI推理生态:开发者可以上传自己的模型,设置自动扩缩容规则,甚至按使用量付费——就像AWS之于云计算,但专为AI推理优化。
如果这笔25亿美元的融资落地,Modal很可能会加速收购边缘计算节点、布局全球数据中心,甚至推出自己的轻量级推理芯片合作方案。它不追求成为下一个OpenAI,而是想成为AI时代最不可或缺的“后台系统”。
在AI从炫技走向实用的今天,真正值钱的,不是模型有多聪明,而是它能不能在你需要的时候,立刻、便宜、稳定地回答你。
Modal,正在做这件事。