MatX获5亿美元融资，誓将AI性能提升10倍，创始人为谷歌TPU元老

两位谷歌TPU元老创业，要给大模型造一颗“专用心脏”

就在上个月，一家名叫MatX的芯片公司悄然完成5亿美元B轮融资，投资方名单让人眼前一亮：量化交易巨头Jane Street、前OpenAI研究员Leopold Aschenbrenner的新基金Situational Awareness，还有Marvell、Spark Capital，以及Stripe联合创始人Collison兄弟。这些名字背后，是真正懂算力、懂成本、懂AI落地的实战派。

MatX的两位创始人，不是实验室里的理论派，而是谷歌TPU项目的核心操盘手。CEO Reiner Pope，当年亲手打造了谷歌PaLM模型的高效推理架构，把千亿参数模型的训练成本砍掉三成；CTO Mike Gunter，则是谷歌TPU硬件的总设计师，30年芯片生涯，从军用雷达到AI加速器，他设计的每一块晶片都经得起数据中心的7×24小时碾压。

他们离开谷歌，不是为了做“更好的GPU”，而是想彻底绕开它。

不搞全能，专攻一个场景：让大模型跑得更快、更便宜

现在的AI训练和推理，几乎全靠英伟达的H100撑着。但H100是为游戏、图形、科学计算全场景设计的“瑞士军刀”，而大语言模型只需要一种操作：反复做矩阵乘法、注意力计算、层归一化——这些操作在GPU里，只占了不到30%的晶体管资源，其余的浮点单元、纹理单元、显示输出电路，全是白耗电的“装饰品”。

MatX的思路很简单：砍掉所有无关模块，只留最精简的计算流水线。他们重新设计了数据通路，让内存带宽直接对准Transformer的注意力头，用定制的稀疏计算单元替代通用FP32单元，甚至把芯片上的缓存层级从五级压缩到两级——每一步，都是为了把电能、面积、散热，100%砸在“算一个token”这件事上。

据知情人士透露，内部测试中，MatX的原型芯片在处理Llama 3 70B的推理任务时，单次响应延迟比H100低67%，单位算力功耗不到后者的四分之一。这不是实验室PPT，是真实流片后的数据。

台积电代工，2027年交付，目标直指OpenAI、Anthropic

这家公司没在硅谷搞概念路演，而是直接和台积电签了3nm工艺的专属产线排期。他们知道，真正的壁垒不在设计，而在制造。没有台积电的产能支持，再好的芯片也只是纸上谈兵。

目前，MatX已与三家顶级AI实验室达成早期合作意向，其中一家正用他们的原型卡跑内部模型迭代。据内部消息，他们计划在2026年中完成首批工程样片交付，2027年初开始向客户正式出货——时间点卡得极准：正好赶上下一代千亿级模型的训练高峰期。

2024年A轮时估值已超3亿美元，如今B轮5亿美元到账，市场估值逼近50亿已成共识。但MatX的团队从不提估值。他们办公室墙上贴着一张纸，上面写着：“别问我们值多少钱，问我们的芯片能不能让客户省下50%的算力预算。”

GPU 芯片 (4)

这场战争，没人想再被“卡脖子”了

过去五年，AI公司靠买英伟达芯片活着。但随着模型越来越大，电费账单比软件开发成本还高。OpenAI去年的算力支出据说超过10亿美元，Anthropic、Meta、Stability AI，谁都在找第二条路。

MatX不是第一个挑战英伟达的公司，但可能是第一个真正从芯片底层重构、又拿到顶级资本和制造资源的团队。他们不打参数战，不搞开源口号，也不靠融资讲故事——他们只做一件事：让AI公司花更少的钱，跑更快的模型。

2027年，当第一块MatX芯片装进AI实验室的机柜时，我们或许会发现：真正的颠覆，从来不是从“更好”开始，而是从“够用”开始，然后，把它做到极致。

AI加速器 LLM优化芯片 TPU继承者专一化AI硬件

CB科技站

MatX获5亿美元融资，誓将AI性能提升10倍，创始人为谷歌TPU元老

两位谷歌TPU元老创业，要给大模型造一颗“专用心脏”

不搞全能，专攻一个场景：让大模型跑得更快、更便宜

台积电代工，2027年交付，目标直指OpenAI、Anthropic

这场战争，没人想再被“卡脖子”了

与本文相关的文章