人工智能时代的到来,正重新点燃美国的制造活力与再工业化进程。人工智能时代已然开启这项技术 “美国制造”,亦服务全球。

我们再次在美本土重启大规模制造,这简直不可思议。特朗普总统最初对我提出的核心诉求,就是让制造业回归美国,制造业回归关乎国家安全,关乎就业岗位,更关乎激活这部分经济活力。而仅仅九个月后,我们就已在亚利桑那州实现 Blackwell 芯片的全面量产。

无论是极致性能的 Blackwell、GB 200(Grace Blackwell 架构产品),还是 NVLink 72(高速互联技术),深度协同设计让我们实现了 “每代产品性能提升 10 倍” 的飞跃,这完全超乎想象。

更令人感慨的是这段历程,这是我们打造的第一台 AI 超级计算机,2016 年我将它交付给旧金山一家初创公司,后来大家都知道,这家公司就是 OpenAI。当年为了造出这台计算机,我们只需设计一款全新芯片,通过单一芯片的协同设计就能达成目标。但现在,要实现性能突破,需要同时研发这么多类芯片,这就是时代的必然,靠单一芯片让计算机性能提升 10 倍,早已不现实。

要让计算机性能持续指数级提升、令牌(token)生成成本持续指数级下降,唯一的路径就是 “深度协同设计”,同时推进各类芯片的研发。

如今,我们的下一代产品 Rubin(鲁宾)已亮相,女士们、先生们,这就是 Vera Rubin(英伟达下一代 AI 超级计算机),简称 Rubin。

这是我们第三代 NVLink 72 整机柜级计算机,GB 200 是第一代产品。全球所有合作伙伴们,我深知大家付出了何等艰辛的努力,第二代产品的研发过程异常艰难,而到了这一代,研发与生产流程已顺畅太多。大家看,这台设备的线缆布局已实现全面优化,目前它仍在实验室进行最终调试。

如今我们已开始交付 GB 300 系列产品,同时也在全力推进 Rubin 的量产准备,明年这个时候,甚至可能更早,Rubin 就能正式投产。未来每一年,我们都会推出极致协同设计的新一代系统,持续提升性能、降低令牌生成成本。

大家看这个,这台计算机的设计简直太精妙了,它的算力达到了 100 拍字节每秒(100 petaflops),可能这个数字听起来没什么概念,我们做个对比,它的性能是 9 年前我交付给 OpenAI 的 DGX-1 超级计算机的 100 倍。也就是说,100 台当年的 DGX-1(换算下来大概需要 25 个机柜),如今只需要这一台 Vera Rubin(维拉・鲁宾)就能完全替代。

这是它的计算托盘,里面装着鲁宾超级芯片(Rubin Super Chip),安装过程异常简单,把这些卡扣打开,直接推进去就行,我自己都能操作。这就是 Vera Rubin 的计算托盘,而且我们还预留了扩展空间,如果需要添加专用处理器,比如 “上下文处理器(Context Processor)”,直接加装即可。

现在 AI 需要处理的上下文越来越多,比如回答问题前要读取大量 PDF 文件、学术论文,观看多段视频,自主学习相关知识,这些上下文处理任务都能通过这款处理器完成。

大家看底部,这里有 8 块新一代 Connect X 9 Super 网络芯片,还有 8 块上下文处理器(CP)、1 块新一代 BlueField 4 数据处理单元(DPU)、2 颗 Vera CPU,以及 4 个鲁宾封装模块(内含 8 块鲁宾 GPU)。整个节点实现了全无线缆设计,100% 液冷散热。关于这款新处理器,今天时间有限就不展开说了,但它的意义是革命性的,现在的 AI 需要更大的内存,比如要记住你我之前的对话、为你积累的所有知识,下次互动时不能遗忘,这就需要大量 “键值缓存(Kv caching)”。

大家可能注意到,现在打开 AI 工具时,刷新和调取历史对话的时间越来越长,就是因为缓存调取需要更强的算力,而 BlueField 4 正是为解决这个问题而生。旁边这个是 NVLink 交换机,它能把所有计算机连接起来,其带宽是全球互联网峰值流量的好几倍,能同时向所有 GPU 传输海量数据。

2025黄仁勋GTC主题演讲完整中文版(3)

再上面这个是 Spectrum X 以太网交换机,它的设计初衷是让所有处理器能同时通信,不会造成网络拥堵(“拥堵” 这个说法很专业,简单说就是不会卡壳)。这三个交换机(NVLink、Spectrum X、量子交换机)各司其职,而且我们支持多种通信标准:无论是 InfiniBand、量子网络,还是 Spectrum 以太网,不管你想用哪种协议,我们都能提供高性能的扩展互联架构。

这款 Spectrum X 以太网采用了硅光技术,支持无空间限制部署,简单说就是激光直接接入硅芯片,实现与我们各类芯片的高速连接。好了,关于硬件部分就介绍到这里,谢谢大家。

这就是它的全貌,一个半机柜的规模,重量达 2 吨,包含 150 万个零部件。中间这个 “脊柱”(互联背板)的带宽极为惊人,每秒能承载相当于全球互联网峰值流量的数据,以同样的速度在所有处理器之间传输。整套系统采用 100% 液冷散热,核心目标就是实现全球最快的令牌(token)生成速度。

刚才展示的是单个机柜的样子大家可以估算一下:一个 1 吉瓦(GW)规模的数据中心,大概需要多少个这样的机柜?假设 16 个机柜约占 1000 千瓦(1 兆瓦),那么 500 个 1 兆瓦单元就需要 8000 到 9000 个这样的机柜,这就是未来 AI 工厂的规模。

大家应该能发现,英伟达的业务边界一直在拓展,从最初设计芯片,到后来设计系统、研发 AI 超级计算机,如今我们已经开始设计完整的 AI 工厂。每一次拓展,都是为了整合更多资源解决复杂问题,最终拿出更优的解决方案。现在我们打造的,正是完整的 AI 工厂,这是我们为 Vera Rubin(维拉・鲁宾)超级计算机量身打造的 AI 工厂,同时我们还研发了一项技术,能让所有合作伙伴通过数字化方式融入这个工厂生态,接下来给大家展示具体原理。

视频旁白:下一场工业革命已然到来,随之而来的是一种全新的工厂形态,AI 基础设施的建设是一个生态级挑战,需要数百家企业协同合作。英伟达 Omniverse Dsx(AI 工厂数字化建设平台)首次为 “千兆瓦级 AI 工厂” 提供了从设计到运营的完整蓝图,建筑、电力、冷却系统与英伟达 AI 基础设施栈实现了深度协同设计。

整个流程从 Omniverse 数字孪生(虚拟仿真)开始,雅各布斯工程公司(Jacob’s Engineering)在电力约束范围内,优化计算密度与布局,最大化令牌生成效率,他们将西门子、施耐德电气等企业的仿真数据通过 OpenDDS 协议整合到 PTC 的产品生命周期管理系统中,再利用英伟达 cuDAMan 生态下的 Etab、Cadence 等工具,进行热学与电学仿真。

设计完成后,贝克特尔(Bechtel)、维谛技术(Vertiv)等英伟达合作伙伴会生产预制模块,这些模块在工厂内完成组装与测试,运抵现场后可直接接入使用,大幅缩短建设周期,让项目更快产生收益。

当实体 AI 工厂投入运行后,数字孪生模型会化身 “操作系统”:工程师可以向 Fidra、Emerald AI 等 AI 智能体下达指令(这些智能体已在数字孪生中完成训练),优化电力消耗,减轻 AI 工厂与电网的负荷。

数据显示,通过 Dsx 平台的优化,一个 1 吉瓦规模的 AI 工厂每年能额外创造数十亿美元的收益。目前,英伟达的合作伙伴已在得克萨斯州、佐治亚州、内华达州、弗吉尼亚州等地推进 Dsx 相关项目;英伟达也正在弗吉尼亚州建设 AI 工厂研究中心,借助 Dsx 平台完成 Vera Rubin 从基础设施到软件的测试与量产。

借助 Dsx,全球英伟达合作伙伴能够以前所未有的速度,完成 AI 基础设施的建设与启动。

这一切都基于数字化实现,早在 Vera Rubin(维拉・鲁宾)超级计算机成为实体设备前,我们就已通过数字孪生模型对它进行研发与测试,同样,在这些 AI 工厂落地前,我们会先通过数字孪生完成设计、规划、优化与运营模拟。

在此,我要向所有支持我们的合作伙伴表示由衷的感谢,Geo、Vernova 都来到了现场,奥利维耶・布卢姆(Olivier Blum)也在(西门子相关负责人),西门子真是我们出色的合作伙伴,罗兰・布什(Roland Busch)应该也在线上观看,嗨,罗兰!总之,能与这些优秀的伙伴携手,我们倍感荣幸。