两位谷歌TPU元老创业,要给大模型造一颗“专用心脏”
就在上个月,一家名叫MatX的芯片公司悄然完成5亿美元B轮融资,投资方名单让人眼前一亮:量化交易巨头Jane Street、前OpenAI研究员Leopold Aschenbrenner的新基金Situational Awareness,还有Marvell、Spark Capital,以及Stripe联合创始人Collison兄弟。这些名字背后,是真正懂算力、懂成本、懂AI落地的实战派。
MatX的两位创始人,不是实验室里的理论派,而是谷歌TPU项目的核心操盘手。CEO Reiner Pope,当年亲手打造了谷歌PaLM模型的高效推理架构,把千亿参数模型的训练成本砍掉三成;CTO Mike Gunter,则是谷歌TPU硬件的总设计师,30年芯片生涯,从军用雷达到AI加速器,他设计的每一块晶片都经得起数据中心的7×24小时碾压。
他们离开谷歌,不是为了做“更好的GPU”,而是想彻底绕开它。
不搞全能,专攻一个场景:让大模型跑得更快、更便宜
现在的AI训练和推理,几乎全靠英伟达的H100撑着。但H100是为游戏、图形、科学计算全场景设计的“瑞士军刀”,而大语言模型只需要一种操作:反复做矩阵乘法、注意力计算、层归一化——这些操作在GPU里,只占了不到30%的晶体管资源,其余的浮点单元、纹理单元、显示输出电路,全是白耗电的“装饰品”。
MatX的思路很简单:砍掉所有无关模块,只留最精简的计算流水线。他们重新设计了数据通路,让内存带宽直接对准Transformer的注意力头,用定制的稀疏计算单元替代通用FP32单元,甚至把芯片上的缓存层级从五级压缩到两级——每一步,都是为了把电能、面积、散热,100%砸在“算一个token”这件事上。
据知情人士透露,内部测试中,MatX的原型芯片在处理Llama 3 70B的推理任务时,单次响应延迟比H100低67%,单位算力功耗不到后者的四分之一。这不是实验室PPT,是真实流片后的数据。
台积电代工,2027年交付,目标直指OpenAI、Anthropic
这家公司没在硅谷搞概念路演,而是直接和台积电签了3nm工艺的专属产线排期。他们知道,真正的壁垒不在设计,而在制造。没有台积电的产能支持,再好的芯片也只是纸上谈兵。
目前,MatX已与三家顶级AI实验室达成早期合作意向,其中一家正用他们的原型卡跑内部模型迭代。据内部消息,他们计划在2026年中完成首批工程样片交付,2027年初开始向客户正式出货——时间点卡得极准:正好赶上下一代千亿级模型的训练高峰期。
2024年A轮时估值已超3亿美元,如今B轮5亿美元到账,市场估值逼近50亿已成共识。但MatX的团队从不提估值。他们办公室墙上贴着一张纸,上面写着:“别问我们值多少钱,问我们的芯片能不能让客户省下50%的算力预算。”

这场战争,没人想再被“卡脖子”了
过去五年,AI公司靠买英伟达芯片活着。但随着模型越来越大,电费账单比软件开发成本还高。OpenAI去年的算力支出据说超过10亿美元,Anthropic、Meta、Stability AI,谁都在找第二条路。
MatX不是第一个挑战英伟达的公司,但可能是第一个真正从芯片底层重构、又拿到顶级资本和制造资源的团队。他们不打参数战,不搞开源口号,也不靠融资讲故事——他们只做一件事:让AI公司花更少的钱,跑更快的模型。
2027年,当第一块MatX芯片装进AI实验室的机柜时,我们或许会发现:真正的颠覆,从来不是从“更好”开始,而是从“够用”开始,然后,把它做到极致。