“不是芯片越来越强了,而是芯片正在被重新组合。”
在摩尔定律日益式微的背景下,芯片设计早已从“单芯片封装”走向了“多芯片集成”。这种趋势下,Die-to-Die(芯粒间)通信接口,不再是底层工程师才关注的“边角料”,而是架构设计能否扩展的关键制约。
2024年 IEEE VLSI Symposium 上,NVIDIA 的 Yoshinori Nishi 给出了一份信息密度极高的演讲报告:《I/O Design Considerations for Die-to-Die Interfaces》。这份报告不仅全面总结了芯粒互联的底层工程逻辑,也让我们看到了 NVIDIA 在 Chiplet 时代如何用系统视角理解 I/O 的演进。
今天,我不会“翻译”这份报告,而是将它拆解为 10 个关键要点,帮你厘清 Die-to-Die I/O 设计中真正重要的那些事。
一、Chiplet 崛起不是折中方案,而是系统设计的新范式
在过去,SoC 是性能堆叠的唯一选择。而今,以 AI、HPC、LLM 为代表的新型计算任务,将单芯片推向物理极限。Chiplet 架构成为打破物理瓶颈的新解法:多个芯粒,按需集成,以连接代替集成。
NVIDIA 的两个系统案例非常直观:
SELENE (2021):4,448 GPUs,112 TB/s互联带宽
EOS (2023):10,752 GPUs,1100 TB/s互联带宽
性能提升接近 10 倍,靠的正是系统层的“多芯片耦合”,而非单芯片工艺突破。
当晶体管无法继续堆叠,我们就只能靠“拼图”来追赶算力。
二、Die-to-Die 接口的本质:不是连上了,而是“扛得住”
Die-to-Die 的作用不仅是连通芯粒,更是要在 带宽、能效、延迟、信号完整性 之间找到最优点。
报告中提到的关键数据:
| <1 | ~5.8 | |
例如,在 55μm bump pitch + 19 lane × 25.2Gbps 的配置下:
单层 Edge BW = 1.45 Tb/s/mm
四层堆叠提升至 5.8 Tb/s/mm
能效低至 0.19 pJ/bit(Ref[10])
这不是“连起来就行”,而是需要“每一比特都值”。
芯片间的连接密度,正在变成架构可扩展性的瓶颈。
三、Interposer 堆叠布局,是从二维向三维的结构突破
报告详解了 Die-to-Die 接口在 Interposer 中通过堆叠布局提升带宽的策略:
堆叠层数: 4 个 PHY 水平层
总路径长度: <1.2mm
每通道速率: 25.2Gbps/lane
层间间距: 约 <300μm
但越多层 → 越多 cross-talk、时延难以匹配、设计复杂性剧增。
这也暴露了 Interposer 本身的“物理上限”:
层数受限(布线资源有限)
PHY 形状、延迟补偿困难
电源完整性(PI)成主要难题
这要求系统设计者提前在芯粒形状、RDL 排布阶段就考虑互联的物理成本。
四、时钟架构是地基,不是配角
NVIDIA 强调了 Delay-Matched Clock Forwarding(延迟匹配时钟前传)的优势:
近乎完美的 jitter 抑制
低敏感度 于供电噪声
RX 的数据采样时间由 TX 控制,更易同步
但也提出工程难点:
时钟路径必须等价于数据路径
所有电气特性(如 tr/tf、load、电阻)需完全匹配
若电压/温度波动不匹配,会导致眼图坍塌
UCIe 给出了一种推荐实现,但并不唯一。真正难点在于,如何把“数据路径 + clock forwarding”做到 delay 等价。
没有可靠的时钟架构,再先进的I/O也无法稳定前进。
五、I/O 的测试架构决定了整个项目的交付风险
在 Chiplet 模式下,大部分 I/O 只有在集成完成后才能测试。但等到那时,发现问题就太晚了。
NVIDIA 提出两套策略:
晶圆级测试(wafer-level loopback): 通过预留 probe pad、局部回环路径在 die 内做 at-speed 测试
集成后测试: 利用 PRBS 发生器 + 错误检测器 + Phase Interpolator,做 eye margin 校验
每个通道建议用独立 PRBS 种子,确保 bit-error 分析精度,并通过 boot 阶段自动 phase 校准,弥补温漂/压漂。
这是在告诉设计者:
测试不是验证设计,测试本身就是设计的一部分。
六、别用错能效公式,数据表也会骗人
NVIDIA 提出一个简单但易错的点:
不要将能效计算为:
功耗 / (2 × 单向带宽)
正确方式应该是:
能效 = 总功耗 / (双向总带宽)
以 PHYA/PHYB 相同的结构为例:
TX19 + RX19
25.2Gbps/lane × 19 = 478.8Gbps
总带宽 = 957.6Gbps
功耗 = 180mW
则能效 = 0.188 pJ/b
看似小问题,实则关乎性能指标的“幻觉误导”。尤其在芯片招标、技术比较中,可能造成重大误判。
七、UCIe 是好协议,但不是最终答案
NVIDIA 多次提到 UCIe(Universal Chiplet Interconnect Express)Rev1.1,但同时指出它存在物理层的三大挑战:
不同工艺芯片电压不同,VDDa ≠ VDDb
Front-end 拓扑实现差异大,标准只是“逻辑兼容”
高速(>16GT/s)场景下,UCIe 并未提供 AC-toggle 或 SBD 支持
因此,芯片设计团队在使用 UCIe 时应具备“差异容忍”能力。
标准是协作的起点,不是交付的保证。
八、前端拓扑选择,是 I/O 的根本差异点
从“CMOS 非终止”到“AC-Toggle”,NVIDIA 全面梳理了各种 I/O front-end 拓扑的 trade-off:
选择错误的 topology,意味着整个系统的布线、电源、clock 都要为其让路。
九、PAM4 与 SBD:未来高带宽的两个技术赌注
NVIDIA 对未来高速连接路径给出了两种技术方向:
PAM4(4-level Pulse Amplitude Modulation):
每符号2比特,4个电平
减小 Nyquist 频率(→ 降低通道损耗)
问题:
电平 margin 低(33%)
更易受串扰影响(-9.54dB SNR)
相位 margin 损失(40%)
SBD(Simultaneous Bi-Directional):
每根线支持双向全速通信
电平与 NRZ 类似,兼容现有前端设计
适合 loopback 自测试场景
目前不被 UCIe 支持,但能效领先:
50Gbps/wire @ 0.297 pJ/b(Ref[12])
PAM4 是频谱压缩术,SBD 是物理层复用术。
十、结语:Die-to-Die I/O 是“芯片系统设计”本身
这份报告的最后说:
“PHY design for Die-to-Die interface may appear simple, but it requires careful planning and considerations.”
我想补上一句:
Die-to-Die,不是 I/O 工程,是系统设计的锚点,是架构约束的物理化呈现。