拆解 NVIDIA 的芯片互联逻辑：Die-to-Die I/O 设计的十个关键点

“不是芯片越来越强了，而是芯片正在被重新组合。”

在摩尔定律日益式微的背景下，芯片设计早已从“单芯片封装”走向了“多芯片集成”。这种趋势下，Die-to-Die（芯粒间）通信接口，不再是底层工程师才关注的“边角料”，而是架构设计能否扩展的关键制约。

2024年 IEEE VLSI Symposium 上，NVIDIA 的 Yoshinori Nishi 给出了一份信息密度极高的演讲报告：《I/O Design Considerations for Die-to-Die Interfaces》。这份报告不仅全面总结了芯粒互联的底层工程逻辑，也让我们看到了 NVIDIA 在 Chiplet 时代如何用系统视角理解 I/O 的演进。

今天，我不会“翻译”这份报告，而是将它拆解为 10 个关键要点，帮你厘清 Die-to-Die I/O 设计中真正重要的那些事。

一、Chiplet 崛起不是折中方案，而是系统设计的新范式

在过去，SoC 是性能堆叠的唯一选择。而今，以 AI、HPC、LLM 为代表的新型计算任务，将单芯片推向物理极限。Chiplet 架构成为打破物理瓶颈的新解法：多个芯粒，按需集成，以连接代替集成。

NVIDIA 的两个系统案例非常直观：

SELENE (2021)：4,448 GPUs，112 TB/s互联带宽
EOS (2023)：10,752 GPUs，1100 TB/s互联带宽

性能提升接近 10 倍，靠的正是系统层的“多芯片耦合”，而非单芯片工艺突破。

当晶体管无法继续堆叠，我们就只能靠“拼图”来追赶算力。

二、Die-to-Die 接口的本质：不是连上了，而是“扛得住”

Die-to-Die 的作用不仅是连通芯粒，更是要在 带宽、能效、延迟、信号完整性 之间找到最优点。

报告中提到的关键数据：

类型	能效（pJ/bit）	带宽密度（Tb/s/mm）
Die-to-Die (Interposer)	<1	~5.8
Medium-reach SerDes	1–3	~1.5
Long-reach SerDes	5–10	<1

例如，在 55μm bump pitch + 19 lane × 25.2Gbps 的配置下：

单层 Edge BW = 1.45 Tb/s/mm
四层堆叠提升至 5.8 Tb/s/mm
能效低至 0.19 pJ/bit（Ref[10]）

这不是“连起来就行”，而是需要“每一比特都值”。

芯片间的连接密度，正在变成架构可扩展性的瓶颈。

三、Interposer 堆叠布局，是从二维向三维的结构突破

报告详解了 Die-to-Die 接口在 Interposer 中通过堆叠布局提升带宽的策略：

堆叠层数： 4 个 PHY 水平层
总路径长度： <1.2mm
每通道速率： 25.2Gbps/lane
层间间距： 约 <300μm

但越多层 → 越多 cross-talk、时延难以匹配、设计复杂性剧增。

这也暴露了 Interposer 本身的“物理上限”：

层数受限（布线资源有限）
PHY 形状、延迟补偿困难
电源完整性（PI）成主要难题

这要求系统设计者提前在芯粒形状、RDL 排布阶段就考虑互联的物理成本。

四、时钟架构是地基，不是配角

NVIDIA 强调了 Delay-Matched Clock Forwarding（延迟匹配时钟前传）的优势：

近乎完美的 jitter 抑制
低敏感度 于供电噪声
RX 的数据采样时间由 TX 控制，更易同步

但也提出工程难点：

时钟路径必须等价于数据路径
所有电气特性（如 tr/tf、load、电阻）需完全匹配
若电压/温度波动不匹配，会导致眼图坍塌

UCIe 给出了一种推荐实现，但并不唯一。真正难点在于，如何把“数据路径 + clock forwarding”做到 delay 等价。

没有可靠的时钟架构，再先进的I/O也无法稳定前进。

五、I/O 的测试架构决定了整个项目的交付风险

在 Chiplet 模式下，大部分 I/O 只有在集成完成后才能测试。但等到那时，发现问题就太晚了。

NVIDIA 提出两套策略：

晶圆级测试（wafer-level loopback）： 通过预留 probe pad、局部回环路径在 die 内做 at-speed 测试
集成后测试： 利用 PRBS 发生器 + 错误检测器 + Phase Interpolator，做 eye margin 校验

每个通道建议用独立 PRBS 种子，确保 bit-error 分析精度，并通过 boot 阶段自动 phase 校准，弥补温漂/压漂。

这是在告诉设计者：

测试不是验证设计，测试本身就是设计的一部分。

六、别用错能效公式，数据表也会骗人

NVIDIA 提出一个简单但易错的点：

不要将能效计算为：

功耗 / (2 × 单向带宽)

正确方式应该是：

能效 = 总功耗 / (双向总带宽)

以 PHYA/PHYB 相同的结构为例：

TX19 + RX19
25.2Gbps/lane × 19 = 478.8Gbps
总带宽 = 957.6Gbps
功耗 = 180mW

则能效 = 0.188 pJ/b

看似小问题，实则关乎性能指标的“幻觉误导”。尤其在芯片招标、技术比较中，可能造成重大误判。

七、UCIe 是好协议，但不是最终答案

NVIDIA 多次提到 UCIe（Universal Chiplet Interconnect Express）Rev1.1，但同时指出它存在物理层的三大挑战：

不同工艺芯片电压不同，VDDa ≠ VDDb
Front-end 拓扑实现差异大，标准只是“逻辑兼容”
高速（>16GT/s）场景下，UCIe 并未提供 AC-toggle 或 SBD 支持

因此，芯片设计团队在使用 UCIe 时应具备“差异容忍”能力。

标准是协作的起点，不是交付的保证。

八、前端拓扑选择，是 I/O 的根本差异点

从“CMOS 非终止”到“AC-Toggle”，NVIDIA 全面梳理了各种 I/O front-end 拓扑的 trade-off：

类型	带宽能力	反射风险	延迟匹配难度	功耗	电源域兼容
CMOS unterminated	低	高	易	低	差
CMOS Terminated	中-高	中	可控	高	一般
N-over-N	高	中	较难	低	差
AC-Toggle	高	低	高	中	强

选择错误的 topology，意味着整个系统的布线、电源、clock 都要为其让路。

九、PAM4 与 SBD：未来高带宽的两个技术赌注

NVIDIA 对未来高速连接路径给出了两种技术方向：

PAM4（4-level Pulse Amplitude Modulation）：

每符号2比特，4个电平
减小 Nyquist 频率（→ 降低通道损耗）
问题：

电平 margin 低（33%）
更易受串扰影响（-9.54dB SNR）
相位 margin 损失（40%）

SBD（Simultaneous Bi-Directional）：

每根线支持双向全速通信
电平与 NRZ 类似，兼容现有前端设计
适合 loopback 自测试场景
目前不被 UCIe 支持，但能效领先：

50Gbps/wire @ 0.297 pJ/b（Ref[12]）

PAM4 是频谱压缩术，SBD 是物理层复用术。

十、结语：Die-to-Die I/O 是“芯片系统设计”本身

这份报告的最后说：

“PHY design for Die-to-Die interface may appear simple, but it requires careful planning and considerations.”

我想补上一句：

Die-to-Die，不是 I/O 工程，是系统设计的锚点，是架构约束的物理化呈现。

·END·

#artContent h1{font-size:16px;font-weight: 400;}#artContent p img{float:none !important;}#artContent table{width:100% !important;}