拆解 NVIDIA 的芯片互联逻辑:Die-to-Die I/O 设计的十个关键点

“不是芯片越来越强了,而是芯片正在被重新组合。”

在摩尔定律日益式微的背景下,芯片设计早已从“单芯片封装”走向了“多芯片集成”。这种趋势下,Die-to-Die(芯粒间)通信接口,不再是底层工程师才关注的“边角料”,而是架构设计能否扩展的关键制约。

2024年 IEEE VLSI Symposium 上,NVIDIA 的 Yoshinori Nishi 给出了一份信息密度极高的演讲报告:《I/O Design Considerations for Die-to-Die Interfaces》。这份报告不仅全面总结了芯粒互联的底层工程逻辑,也让我们看到了 NVIDIA 在 Chiplet 时代如何用系统视角理解 I/O 的演进。

今天,我不会“翻译”这份报告,而是将它拆解为 10 个关键要点,帮你厘清 Die-to-Die I/O 设计中真正重要的那些事。

一、Chiplet 崛起不是折中方案,而是系统设计的新范式


在过去,SoC 是性能堆叠的唯一选择。而今,以 AI、HPC、LLM 为代表的新型计算任务,将单芯片推向物理极限。Chiplet 架构成为打破物理瓶颈的新解法:多个芯粒,按需集成,以连接代替集成。

NVIDIA 的两个系统案例非常直观:

  • SELENE (2021):4,448 GPUs,112 TB/s互联带宽

  • EOS (2023):10,752 GPUs,1100 TB/s互联带宽

性能提升接近 10 倍,靠的正是系统层的“多芯片耦合”,而非单芯片工艺突破。

当晶体管无法继续堆叠,我们就只能靠“拼图”来追赶算力。


二、Die-to-Die 接口的本质:不是连上了,而是“扛得住”


Die-to-Die 的作用不仅是连通芯粒,更是要在 带宽、能效、延迟、信号完整性 之间找到最优点。

报告中提到的关键数据:

类型
能效(pJ/bit)
带宽密度(Tb/s/mm)
Die-to-Die (Interposer)
<1~5.8
Medium-reach SerDes
1–3
~1.5
Long-reach SerDes
5–10
<1

例如,在 55μm bump pitch + 19 lane × 25.2Gbps 的配置下:

  • 单层 Edge BW = 1.45 Tb/s/mm

  • 四层堆叠提升至 5.8 Tb/s/mm

  • 能效低至 0.19 pJ/bit(Ref[10])

这不是“连起来就行”,而是需要“每一比特都值”。

芯片间的连接密度,正在变成架构可扩展性的瓶颈。


三、Interposer 堆叠布局,是从二维向三维的结构突破


报告详解了 Die-to-Die 接口在 Interposer 中通过堆叠布局提升带宽的策略:

  • 堆叠层数: 4 个 PHY 水平层

  • 总路径长度: <1.2mm

  • 每通道速率: 25.2Gbps/lane

  • 层间间距: 约 <300μm

但越多层 → 越多 cross-talk、时延难以匹配、设计复杂性剧增。

这也暴露了 Interposer 本身的“物理上限”:

  • 层数受限(布线资源有限)

  • PHY 形状、延迟补偿困难

  • 电源完整性(PI)成主要难题

这要求系统设计者提前在芯粒形状、RDL 排布阶段就考虑互联的物理成本。

四、时钟架构是地基,不是配角


NVIDIA 强调了 Delay-Matched Clock Forwarding(延迟匹配时钟前传)的优势:

  • 近乎完美的 jitter 抑制

  • 低敏感度 于供电噪声

  • RX 的数据采样时间由 TX 控制,更易同步

但也提出工程难点:

  • 时钟路径必须等价于数据路径

  • 所有电气特性(如 tr/tf、load、电阻)需完全匹配

  • 若电压/温度波动不匹配,会导致眼图坍塌

UCIe 给出了一种推荐实现,但并不唯一。真正难点在于,如何把“数据路径 + clock forwarding”做到 delay 等价。

没有可靠的时钟架构,再先进的I/O也无法稳定前进。


五、I/O 的测试架构决定了整个项目的交付风险


在 Chiplet 模式下,大部分 I/O 只有在集成完成后才能测试。但等到那时,发现问题就太晚了。

NVIDIA 提出两套策略:

  • 晶圆级测试(wafer-level loopback): 通过预留 probe pad、局部回环路径在 die 内做 at-speed 测试

  • 集成后测试: 利用 PRBS 发生器 + 错误检测器 + Phase Interpolator,做 eye margin 校验

每个通道建议用独立 PRBS 种子,确保 bit-error 分析精度,并通过 boot 阶段自动 phase 校准,弥补温漂/压漂。

这是在告诉设计者:

测试不是验证设计,测试本身就是设计的一部分。


六、别用错能效公式,数据表也会骗人


NVIDIA 提出一个简单但易错的点:

不要将能效计算为:

功耗 / (2 × 单向带宽)

正确方式应该是:

能效 = 总功耗 / (双向总带宽)

以 PHYA/PHYB 相同的结构为例:

  • TX19 + RX19

  • 25.2Gbps/lane × 19 = 478.8Gbps

  • 总带宽 = 957.6Gbps

  • 功耗 = 180mW

则能效 = 0.188 pJ/b

看似小问题,实则关乎性能指标的“幻觉误导”。尤其在芯片招标、技术比较中,可能造成重大误判。

七、UCIe 是好协议,但不是最终答案


NVIDIA 多次提到 UCIe(Universal Chiplet Interconnect Express)Rev1.1,但同时指出它存在物理层的三大挑战:

  • 不同工艺芯片电压不同,VDDa ≠ VDDb

  • Front-end 拓扑实现差异大,标准只是“逻辑兼容”

  • 高速(>16GT/s)场景下,UCIe 并未提供 AC-toggle 或 SBD 支持

因此,芯片设计团队在使用 UCIe 时应具备“差异容忍”能力。

标准是协作的起点,不是交付的保证。


八、前端拓扑选择,是 I/O 的根本差异点


从“CMOS 非终止”到“AC-Toggle”,NVIDIA 全面梳理了各种 I/O front-end 拓扑的 trade-off:

类型
带宽能力
反射风险
延迟匹配难度
功耗
电源域兼容
CMOS unterminated
CMOS Terminated
中-高
可控
一般
N-over-N
较难
AC-Toggle

选择错误的 topology,意味着整个系统的布线、电源、clock 都要为其让路。

九、PAM4 与 SBD:未来高带宽的两个技术赌注


NVIDIA 对未来高速连接路径给出了两种技术方向:

PAM4(4-level Pulse Amplitude Modulation):

  • 每符号2比特,4个电平

  • 减小 Nyquist 频率(→ 降低通道损耗)

  • 问题:

    • 电平 margin 低(33%)

    • 更易受串扰影响(-9.54dB SNR)

    • 相位 margin 损失(40%)

SBD(Simultaneous Bi-Directional):

  • 每根线支持双向全速通信

  • 电平与 NRZ 类似,兼容现有前端设计

  • 适合 loopback 自测试场景

  • 目前不被 UCIe 支持,但能效领先:

    • 50Gbps/wire @ 0.297 pJ/b(Ref[12])

PAM4 是频谱压缩术,SBD 是物理层复用术。


十、结语:Die-to-Die I/O 是“芯片系统设计”本身


这份报告的最后说:

“PHY design for Die-to-Die interface may appear simple, but it requires careful planning and considerations.”

我想补上一句:

Die-to-Die,不是 I/O 工程,是系统设计的锚点,是架构约束的物理化呈现。


·END·
#artContent h1{font-size:16px;font-weight: 400;}#artContent p img{float:none !important;}#artContent table{width:100% !important;}