Positron 推出 Asimov 芯片,直指英伟达软肋
在全球AI算力竞争白热化的当下,一家名不见经传的初创公司Positron突然亮出底牌——一款名为Asimov的专用AI推理芯片。它不谈浮夸的“颠覆”,不堆砌术语,只抛出一个让数据中心老板们心跳加速的数字:在每瓦特和每美元能处理的Token数量上,Asimov的目标是英伟达下一代Rubin架构的5倍。
这不是PPT数据。Positron团队来自前AMD、NVIDIA和Google TPU的核心工程师,他们没去拼更大的晶体管数量,也没追着HBM3E跑。相反,他们干了一件看起来“反常识”的事:把GPU里那些为游戏、为通用计算设计的冗余电路——纹理单元、光栅化引擎、动态调度逻辑——全砍了。Asimov只保留最核心的张量运算单元,像一台专为翻译长文而造的机器,别的都不管。
为什么这台“极简芯片”能省这么多电?
数据中心的电费账单,正在成为AI公司的最大成本。一个千亿参数模型跑起来,一天电费可能超过一辆特斯拉的售价。传统GPU为了兼容性,哪怕只跑一个推理请求,也要全速运转,风扇狂转,功耗居高不下。
Asimov的设计思路很简单:你只用它做推理,那它就只干推理。它内部的内存架构直接对接Transformer的注意力机制,权重加载路径缩短了40%;控制逻辑从上百个模块压缩到十几个;连散热方案都重新设计——因为功耗低了,风扇不用满速转,机房噪音和冷却成本同步下降。
一位接触过原型机的AI服务商透露:“我们拿Llama 3 70B做测试,同样的负载,Asimov集群的电力消耗只有A100的一半,而且不需要额外的液冷。”
生态是生死线,Positron的“笨办法”反而靠谱
光有芯片没用。过去几年,无数初创公司倒在了“编译器跑不通PyTorch模型”这一关。
Positron没搞花哨的自动转换工具,而是花了一年时间,和Hugging Face、Together AI、Runway等主流模型平台直接对接。现在,Asimov支持原生加载HF格式模型,无需重训练,也不用改一行代码。开发者只要把模型从NVIDIA云上拖过来,换上Asimov的运行时,就能跑。
更关键的是,他们开放了“推理性能预估工具”——你输入模型参数、请求并发量、延迟要求,系统会直接告诉你需要多少颗Asimov芯片,月度电费多少,比你算ROI快十倍。
谁在偷偷买?答案藏在订单里
虽然Positron还没公开量产时间,但据知情人士透露,已有三家欧洲云服务商和一家亚洲头部内容平台签署了首批意向订单,用于部署面向海外用户的AI客服与内容生成服务。这些客户的选择很现实:不追求峰值算力,只求“稳定、便宜、不烧钱”。
更值得注意的是,Asimov的制造工艺并未追求3nm或2nm,而是采用成熟的5nm节点。这不仅降低了成本,也规避了先进制程的产能风险。一位供应链人士说:“他们不是在赌未来,是在解决现在的问题。”
这不是一场技术秀,而是一场成本革命
英伟达的统治力建立在“全栈生态”上,但它的代价是高昂。当大模型从“炫技”走向“商用”,当企业开始算每一分钱的回报,专用芯片的窗口就打开了。
Asimov不是要取代所有GPU,它只想在“推理”这一小块战场上,把成本打下来。如果它真能做到5倍能效,那未来三年,全球AI服务的定价体系,可能会被重新洗牌。
对开发者来说,这可能是第一次,他们能用比以前便宜一半的价格,把大模型部署到真实用户面前——而不必担心下个月的电费单。