工程暴力学:NVIDIA Vera Rubin!

01  NVIDIA Vera Rubin 超级芯片

Rubin平台的核心是NVIDIA Vera Rubin超级芯片,它是基础计算构建模块,将AI执行与高带宽数据传输和编排紧密集成。每个超级芯片通过内存一致的NVLink-C2C互连技术,将两个Rubin GPU与一个Vera CPU组合在一起,打破了传统的CPU-GPU边界,形成一个统一的机架级执行域。

这种方法对NVIDIA来说并不新鲜。从NVIDIA Grace Hopper开始,到后续几代产品,CPU和GPU的紧密集成一直是其核心设计原则,旨在协同优化计算、内存和互连,从而在实际训练和推理工作负载下保持资源利用率。

在 Vera Rubin 超级芯片中,CPU 作为数据引擎与 GPU 执行紧密耦合。这种耦合实现了低延迟协调、共享内存访问以及训练、训练后处理和推理工作负载的高效编排。Vera CPU 并非作为外部主机,而是直接参与执行,负责数据移动、调度、同步和执行流程,而不会引入瓶颈。

通过将GPU计算与高带宽CPU数据引擎集成在单个主机处理主板上,这款超级芯片提高了数据局部性,降低了软件开销,并在异构执行阶段保持了更高的利用率。它充当了芯片级创新与机架级智能之间的架构桥梁。

02 Vera Rubin NVL72 计算机托盘

计算托架将 Vera Rubin 超级芯片转化为可部署、可维护的单元,专为人工智能工厂规模而设计。每个托架集成了两个超级芯片、电源、散热、网络和管理组件,形成一个模块化、无电缆的组件,该组件针对密度、可靠性和易用性进行了优化。

重新设计的内部液体歧管和通用快速接头支持比前代产品更高的流量,从而确保在持续高功率工作负载下也能保持稳定的性能。模块化计算托架采用独立的前后托架,简化了组装和维护流程。

如下图所示,这种无电缆、无软管、无风扇的计算托架架构省去了托架内大量的 PCIe、网络和管理手动连接,从而消除了以往有电缆托架设计中常见的组装和维护难题。这种机械结构的简化使得组装速度比上一代托架架构提高了 18 倍,并显著缩短了现场维护时间,从而降低了部署时间和持续运营成本。 

NVIDIA Blackwell Ultra GB300 与 Vera Rubin 计算托盘

03  Rubin CPX计算托盘无电缆化设计

下表展示了单个计算托盘中集成的计算与网络组件密度:比如 VR200 NVL144 CPX 机架,每个计算托盘里能塞 4 个 R200 GPU + 8 个 Rubin CPX + 2 个 Vera CPU,整个机架算下来有 396 个计算和网络芯片,密度比前两代高了一大截。

之前的 GB200 用的是电缆 + PCB的连接方式,飞线又多又乱,装配时容易坏,还占空间,导致每个计算托盘里塞不下太多芯片。这次 Rubin 系列直接搞了无电缆设计:用 Amphenol 的板对板连接器,配合中间的 PCB 中板,所有信号都走电路板,没有一根飞线。

好处很明显:一是故障点少了,可靠性提升;二是空间省出来了。

GB200 计算托盘
那么在无缆线设计下,信号如何传输?答案非常简洁:信号由HPM(Bianca)主板通过安费诺(Amphenol)的Paladin板对板连接器传输至电路板外部。随后,信号通过位于机箱中央的PCB中背板(PCB midplane)进行路由;在PCB中背板的另一侧,子卡(daughter cards)通过另一组Paladin板对板连接器与中背板实现互联为了适应这种无线设计,HPM(Bianca)主板上部的 CX-9 网卡从机箱后半部分移至前半部分,如下图所示。

下图展示了不同Vera Rubin计算托盘SKU内部的信号传输路径,以及VR Rubin系列SKU的计算托盘拓扑结构。从示意图中可以发现,CX-9芯片在实现Rubin CPX功能及横向扩展连接中起到关键作用——因为它本身也是一颗集成式PCIe交换芯片。

04  Rubin CPX计算托盘模块化设计

为提升可维护性,子卡(daughter cards)也被设计为模块化结构。每个子卡模块均可通过滑轨套件从子卡模块插槽中便捷插拔。在计算托盘内部,专门设计了内部导轨套件以实现这一功能。

NVL144 CPX 将保留与 GB200/GB300 类似的计算板,用于计算托盘底盘的后半部分。显著的区别在于,它采用了可插拔的 SOCAMM DRAM 模块,而不是焊接的 LPDDR5X,作为 CPU 运行的内存。

VR NVL144 CPX 与 GB200/GB300 之间的大部分区别在于机箱前半部分,位于主机处理器主板 (HPM) 计算板下方,在 Blackwell 一代中也称为“Bianca”板。

在前端,VR NVL144 CPX 设计采用模块化设计,由 7 个子卡模块组成。

  • 机箱两侧各放置四个子卡模块。每侧各有两张子卡堆叠在一起。这四张子卡分别包含两个 800G CX-9 网卡、一个 1.6T OSFP 卡笼、一个 E1.S SSD NVMe 模块和两个 Rubin CPX 卡。
  • 机箱中间的一个子卡(下图中下部)装有 Bluefield-4 模块,其中包含一个宽限 CPU 和一个 CX-9 NIC。
  • Bluefield-4 模块顶部堆叠了一块子卡,用于容纳电源输送板 (PDB)。PDB 负责将电源从 48-54V 降压至 12-13.5V,当电源从背面的母线连接器进入机箱时,PDB 便会将电压降压至 12-13.5V。
  • 最后一块子卡要小得多,位于 Bluefield-4 模块的右侧。它更加纤薄,内置了实用程序管理模块,其中包含 BMC、HMC、DC-SCM 和管理 I/O 等组件。

05  Rubin CPX架构的全液冷设计

AI 芯片越密集,散热就越头疼。前两代机架是85% 液冷 + 15% 风冷,对付低功率还行,但这次 VR200 NVL144 CPX 机架的功率预算直接冲到了 370kW(相当于 200 多台家用空调的功率),风冷根本扛不住。

Rubin CPX芯片的热设计功耗(TDP)约为800W,但当计入集成GDDR7内存的完整模块时,整体功耗将提升至880W。为有效对计算托盘前部7040W的Rubin CPX模块群进行散热,机箱前部散热系统必须从传统风冷升级为液冷方案。

为此,NVIDIA复用了其2009年GTX 295显卡的经典设计思路:Rubin CPX模块与CX-9子卡采用夹层堆叠结构,并在两者之间集成共享式液冷冷板(cold plate)。这种设计通过直接接触导热的方式,显著提升高密度发热组件的散热效率。

NVIDIA GTX295显卡

于是英伟达干脆上了100% 全液冷,还搞了个三明治设计:把 Rubin CPX 和 CX-9 网卡的 PCB 板叠在一起,中间夹一个共享的液冷冷板,两边的热量都能快速导走。这样一来,即使每个计算托盘里的芯片总功率到 7040W,也能稳稳压住,不会因为过热降频。

在 PCB 的外侧,热管和散热器将热量从每个翻盖式 GDDR7 内存模块的背面传导至主冷板。通过充分利用 1U 托盘高度并使用冷板的两侧,将容纳这些 GPU 所需的计算托盘面积减半,从而实现最大密度。
#artContent h1{font-size:16px;font-weight: 400;}#artContent p img{float:none !important;}#artContent table{width:100% !important;}