性能之神加盟OpenAI:Brendan Gregg要为ChatGPT“修引擎”
曾被工程师奉为“系统排障圣经”的《性能之巅》作者、火焰图发明者Brendan Gregg,正式加入OpenAI。他不坐办公室,也不在硅谷,而是远程从澳大利亚的家中,一头扎进ChatGPT背后那片由数万张GPU组成的“算力丛林”里。
这不是普通的人才流动。Gregg不是来写PPT的,他是来拆解、重构、重写底层性能逻辑的。在Netflix时,他让服务器故障排查时间从几天缩短到几分钟;在Intel,他用eBPF技术让内核级性能监控变得像打开仪表盘一样直观。他的工具,至今仍是全球运维团队的标配——你用的监控系统里,很可能藏着他的代码。
这次,他面对的不是几台服务器,而是成千上万台GPU组成的超级集群。ChatGPT每秒处理数万次请求,每一次响应背后,是内存带宽的拉锯、GPU调度的争抢、网络延迟的累积。传统调优方法在这里失效了——你不能靠“重启试试”解决一个需要72小时训练的模型卡顿。
Gregg说:“我们不是在优化一台电脑,是在驯服一台会呼吸的机器。”他正在设计一套专属于大模型的性能诊断体系:不是看CPU利用率,而是看显存碎片如何拖慢推理;不是查磁盘I/O,而是追踪张量在跨节点传输时的微秒级延迟。他甚至开始和OpenAI的硬件团队一起,重新设计数据流路径——让模型权重的加载像高速公路的车流,而不是堵在收费站。
有人问他为什么选OpenAI。他说:“我小时候看《星际迷航》,总幻想能跟那台叫‘主控计算机’的AI对话。它不说话,但你一问,它就知道你要什么,还比你快一步。现在,ChatGPT有点像它了——只是它太慢了,有时候卡得像老式拨号上网。”
他的目标很朴素:让每一次提问,都像打开水龙头一样顺滑。不是“能用”,而是“用起来感觉不到它的存在”。
他不是来当顾问的,是来动手改代码的
别被“顶级专家”“殿堂级人物”这些词唬住。Gregg不是那种只开会、画架构图的高管。他在OpenAI的工牌上写的是“工程师”。每天早上,他先看凌晨的性能日志,挑出那些“奇怪的尖峰”,然后写脚本、改内核模块、跑压测。他最近在测试一种新的GPU任务调度策略,能减少15%的空闲等待时间——这相当于每天省下相当于一座小型数据中心的电力。
他的团队里没有“AI专家”,全是搞底层的硬核工程师。有人负责追踪NVLink的拥塞,有人专攻H100的显存带宽瓶颈,而Gregg,是那个总在深夜发 Slack 消息的人:“你们有没有试过把这组kernel的内存对齐改成256字节?”
一位内部工程师透露:“他来之后,我们连‘性能优化’这个词都不敢乱说了。他说,‘别跟我说优化,告诉我哪里慢,我带你去看数据。’”
火焰图还在,只是现在画的是GPU
当年,他发明的火焰图,让工程师第一次能“看见”程序调用栈的热力分布。如今,他正在把这套思路迁移到AI集群上——不是画CPU的函数调用,而是画GPU的Kernel执行、显存分配、跨节点通信的时序图。
OpenAI内部已经悄悄上线了“Gregg View”——一个基于他思路开发的实时性能可视化面板。工程师现在能一眼看出:哪个模型的推理请求在哪个节点上被“卡”了,是网络慢了,还是某个显卡的显存碎片化太严重。
这不是炫技。这是救命。当ChatGPT在高峰期每分钟响应50万次请求时,一个0.1秒的延迟,就是5万次用户体验的断裂。Gregg知道,真正的性能优化,不是让服务器跑得更快,而是让用户感觉不到它在“跑”。
他不是来造神的,是来让神别卡顿的
有人问他,加入OpenAI是不是为了“改变世界”?他笑了笑:“我只想让那个在凌晨三点问‘帮我写个周报’的小姑娘,别等三秒才看到回复。”
他没提奖金,没提股权,也没说要造下一代模型。他只说:“如果一台机器每天被几千万人用,那它每秒的延迟,就是几千万人的耐心。”
现在,全世界最懂“机器哪里会喘不过气”的人,坐在悉尼的阳台,盯着屏幕,手指敲下一行代码——
他要让ChatGPT,不再卡顿。