四万字解析，下一代互连技术CPO（第二部分）：CPO的实现

本文由半导纵横综合

第二部分：CPO介绍和实现

CPO将光引擎直接集成到与高性能计算或网络ASIC相同的封装或模块中。这些光引擎将电信号转换为光信号，从而实现通过光链路进行高速数据传输。由于铜缆上的高速电信号传输距离有限，因此必须使用光链路进行几米以上的远距离数据通信。

如今，大多数电光转换都是通过可插拔光收发器实现的。在这种情况下，电信号会从交换机或处理芯片出发，经过数十厘米甚至更远的PCB板，最终到达机箱前面板或后面板上的物理收发器外壳。可插拔光收发器就位于该外壳内。收发器接收电信号，经光数字信号处理器（DSP）芯片进行重新处理后，再发送到光引擎组件，由其将电信号转换为光信号。然后，光信号可以通过光纤传输到链路的另一端，在那里，另一个收发器会反向执行此过程，将光信号转换回电信号，最终返回到目标芯片。

在这个过程中，电信号（至少对于铜线而言）需要经过相对较长的距离，并经过多个转换点才能到达光链路。这会导致电信号衰减，并且需要大量的功率和复杂的电路（例如串行器/解串器）来驱动和恢复信号。为了改善这种情况，需要缩短电信号的传输距离。这就引出了“共封装光器件”的概念，即将原本位于可插拔收发器中的光引擎与主机芯片共封装。由于光引擎距离扩展处理器（XPU）或交换机专用集成电路（ASIC）更近，因此可以将电气走线长度从几十厘米缩短到几十毫米。这显著降低了功耗，提高了带宽密度，并通过最大限度地减少电气互连距离和缓解信号完整性挑战来降低延迟。

下图展示了一种CPO（芯片封装优化）方案，其中光引擎与计算芯片或交换芯片封装在同一芯片上。光引擎最初将位于基板上，未来将放置在中介层上。

来源：SemiAnalysis

如今，如下图所示，前置可插拔光模块解决方案已十分普及。该图的主要意义在于说明，电信号需要沿着铜线或架空电缆传输一段较长的距离（15-30厘米）才能到达收发器中的光引擎。正如上文所述，这也意味着需要使用长距离（LR）SerDes 来驱动可插拔模块。

来源：SemiAnalysis

此外，还有一些介于 CPO 和传统前插拔光学器件之间的中间实现方式，例如近封装光学器件 (NPO) 和板载光学器件 (OBO)。

近年来，非封装光引擎（NPO）已成为实现复合封装光引擎（CPO）的中间步骤。NPO有多种定义。NPO指的是光引擎并非直接封装在ASIC基板上，而是封装在另一个基板上。光引擎仍然保持可插拔状态，可以从基板上拆卸下来。电信号仍然会从XPU封装上的SerDes通过铜通道传输到光引擎。

来源：SemiAnalysis

还有一种方案是板载光模块（OBO），它将光引擎集成到机箱内的系统PCB上，使其更靠近主机ASIC。然而，OBO继承了CPO的诸多挑战，但在带宽密度和功耗方面却优势不明显。我们认为OBO是“两头不讨好”的方案，因为它既包含了CPO的复杂性，又继承了前插拔式光模块的一些局限性。

来源：SemiAnalysis

共封装铜

CPO 的另一种替代方案是“共封装铜”（CPC）。CPC 使用直接从基板上的连接器引出的铜缆。CPC 使用的电缆与飞线电缆相同，用途也相同：绕过 PCB 走线。CPC 在飞线电缆的基础上更进一步，其插座直接位于封装基板上。所使用的电缆是绝缘良好的双轴电缆（Twinax 电缆），可有效降低串扰，从而显著降低插入损耗，远低于传统的电气走线。虽然该方案仍然使用铜，但它在信号完整性方面具有关键优势。CPC 可以为部署 448G SerDes 提供切实可行的途径，从而进一步扩展封装外互连技术。

来源：LuxShare

来源：立讯共享

CPC 的挑战在于封装基板的复杂性增加。基板必须将电源和信号路由到数千根这样的电缆。尽管面临这一挑战，CPC 仍然比 CPO 简单得多，后者仍需克服供应链多个环节的诸多制造难题。我们认为 CPC 对于某些短距离应用（例如机架内扩展连接）尤其具有吸引力，我们将在下文探讨这一点。通过绕过损耗较大的 CCL 走线，CPC 有望成为实现 448G 线路速度的技术。此外，由于这种带宽的信号在 PCB 中传输时会遭受不可接受的衰减，因此 CPC 也被广泛用于实现 448G 传输。

过去阻碍 CPO 市场准备的障碍：为什么现在才出现？

尽管CPO技术具有显著优势，但由于诸多挑战导致成本居高不下，其在实际应用中仍然非常有限。这些挑战包括：封装的复杂性（其成本甚至高于原始设备制造商本身）、制造工艺的复杂性、可靠性和良率问题，以及由紧密集成的光学和电子元件引起的散热管理问题。另一个障碍是缺乏行业标准。此外，客户对可维护性的担忧也阻碍了从传统可插拔光学器件向CPO解决方案的过渡。

客户的另一个主要担忧是，采用CPO模式可能会让他们失去控制成本的能力。相比于少数交换机厂商，向数量较多的收发器厂商压榨成本要容易得多。

与此同时，可插拔光器件（CPO 将取代的现有技术）不断改进，并且仍然能够为几乎所有应用提供足够好的性能，同时大大减少了最终用户的焦虑。

在第二部分的剩余部分，将深入探讨采用CPO的驱动因素。首先，将解释SerDes的扩展性已达到瓶颈，因此需要采用其他接口类型，例如Wide I/O与CPO相结合。然后，将讨论制造方面的考量以及市场推广策略。还将讨论CPO的关键组件，例如光引擎、光纤耦合器、外部激光源和调制器。最后，将介绍CPO带宽扩展的路线图。

超越基于DSP的收发器：从LPO到CPO

数字信号处理收发器负责光信号的发射和接收，其内部包含一个“光引擎”（OE），用于进行电光转换。光引擎由驱动器（DRV）和调制器（MOD）组成，用于发射光信号；同时还包含跨阻放大器（TIA）和光电探测器（PD），用于接收光信号。

另一个重要组件是光DSP芯片，它有时会将驱动器和/或TIA集成在一个封装中。从主机交换或处理芯片发出的高频电信号需要沿着损耗较大的铜线传输相对较长的距离，才能到达服务器机箱前端的收发器。DSP负责对该信号进行重定时和重新调整。它执行纠错和时钟/数据恢复，以补偿信号从交换机或ASIC芯片通过基板或其他传输介质传输过程中产生的电信号劣化和衰减。对于调制，以PAM4调制（四级脉冲幅度调制）为例，DSP将二进制信号映射到四个不同的幅度级别，以增加每个信号的比特数，从而实现更高的比特率和更大的带宽。

来源：SemiAnalysis

DSP芯片是收发器中最耗电、最昂贵的组件之一，甚至可以说是最耗电、最昂贵的组件。对于800G SR8收发器而言，DSP芯片的功耗几乎占模块总功耗的50%，这也是为什么人们如此重视如何去除DSP芯片的原因。

来源：Radha Nagarajan 博士等：《数据中心应用低功耗数字信号处理技术的最新进展》

构建一个包含 18k GB300 服务器的集群，采用双层 InfiniBand 网络，需要 18,432 个 800G DR4 收发器和 27,648 个 1.6T DR8 收发器。使用 DSP 带来的额外成本和功耗会显著增加总拥有成本。假设每个 800G DSP 的功耗为 6-7W，每个 1.6T DSP 的功耗为 12-14W，那么仅整个集群的后端网络就需要 480kW 的 DSP 功耗，相当于每个服务器机架约 1.8kW。如果从知名品牌供应商采购，收发器的成本可能占集群总拥有成本的近 10%。因此，DSP 的功耗占总功耗的 50%，物料清单成本 (BOM) 的 20-30%，一些人甚至将其视为降低成本和提高能效的头号敌人。

来源：SemiAnalysis AI 网络模型

数字信号处理器（DSP）的高成本和高功耗促使业界寻找能够绕过DSP的技术。第一波攻击DSP的浪潮是线性可插拔光（LPO）——它试图完全移除DSP，让交换机中的SerDes直接驱动收发器中的TX和RX光元件。然而，正如DSP专家Loi Nguyen在2023年接受我们采访时准确预测的那样，LPO尚未普及。

CPO 将 LPO 的概念提升到了一个新的层次，它将光引擎与计算或交换芯片封装在同一芯片上。CPO 的一个关键优势在于，由于主机和光引擎之间的距离非常短，因此不再需要收发器中的 DSP。此外，CPO 还超越了 LPO，因为它无需使用功耗和面积都较大的长距离 SerDes，而是采用短距离 SerDes，甚至在宽 I/O 接口的情况下采用时钟转发的宽 D2D SerDes。

人们常说，CPO（可插拔可编程逻辑控制器）技术其实近在咫尺，但过去二十年来它为何始终未能普及？为什么业界更倾向于使用可插拔DSP收发器？

可插拔收发器的一大优势在于其高度互操作性。凭借 OSFP 和 QSFP-DD 等标准封装形式以及对 OIF 标准的遵循，客户通常可以独立于交换机和服务器供应商选择收发器供应商，从而享受采购灵活性和更强的议价能力。

另一个巨大的优势是现场可维护性。收发器的安装和更换非常简单，只需由远程人员将其从交换机或服务器机箱上拔下即可。相比之下，对于CPO（光纤光模块），光引擎的任何故障都可能导致整个交换机无法使用。即使是可维护的故障，排查和修复也可能非常复杂。通常，激光器是最常见的故障点，目前大多数CPO方案都采用可插拔的外部激光器以提高可维护性和可更换性，但人们仍然担心其他不可插拔的CPO组件会发生故障。

为什么需要CPO？I/O挑战、带宽密度和瓶颈

除了摆脱耗电且成本高昂的 DSP 和最大限度地减少或消除 LR SerDes 的使用之外，采用 CPO 的另一个巨大好处是相对于能耗而言更高的互连带宽密度。

带宽密度衡量单位面积或信道内传输的数据量，反映了有限空间用于高速数据传输的效率。能量效率量化了传输单位数据所需的能量。

因此，互连带宽密度与能耗之比是衡量给定互连客观质量的一个非常重要的指标（FoM）。当然，最优互连方案还应满足距离和成本参数的要求。

观察下图，可以发现一个明显的趋势：对于电链路而言，随着距离的增加，该性能指标呈指数级下降。此外，从纯电接口过渡到需要光电转换的接口，效率会大幅下降——甚至可能下降一个数量级。这种下降是由于需要能量来驱动信号从芯片传输到前面板的收发器。而为光DSP供电则需要更多能量。基于CPO的通信的性能指标曲线明显高于可插拔接口。如下图所示，在相同的距离范围内，CPO在单位面积和单位能耗下具有更高的带宽密度，因此是一种客观上更优的互连方式。

资料来源：G Keeler，DARPA 2019，SemiAnalysis

这张图表也印证了“能用铜缆就用铜缆，必须用光纤才用”这句格言。如果条件允许，短距离铜缆通信性能更优。英伟达在其机架级GPU架构中秉承了这一理念，其设计目的就是为了突破机架内部密度的极限，最大限度地提高可通过铜缆联网的GPU数量。这正是GB200 NVL72所采用的纵向扩展网络架构背后的逻辑，而英伟达在其Kyber机架中更进一步地实践了这一理念。然而，CPO技术的成熟只是时间问题，它终将使纵向扩展能够充分利用其在性能优化曲线中的优势，并从总体拥有成本（TCO）的角度带来更高的性价比。

输入/输出 (I/O) 障碍和阻碍

虽然晶体管密度和计算能力（以 FLOPs 表示）得到了很好的扩展，但 I/O 的扩展速度却慢得多，这造成了整体系统性能的瓶颈：由于要传输到片外的数据需要通过有机封装基板上有限数量的 I/O，因此可用于片外 I/O 的可用带宽是有限的。

此外，提高每个I/O的信号传输速度变得越来越困难且耗电，进一步限制了数据传输。这正是互连带宽在过去几十年中相对于其他计算趋势而言扩展性如此糟糕的一个关键原因。

来源：阿米尔·戈拉米

由于单个倒装芯片BGA封装中凸点数量的限制，高性能计算（HPC）应用的封装外I/O密度已达到瓶颈。这制约了逃逸带宽的扩展。

来源：台积电

电气串行器/解串器扩展瓶颈

在I/O数量有限的情况下，提高带宽的关键在于提升每个I/O信号的传输频率。目前，英伟达和博通在SerDes IP领域处于领先地位。英伟达在其Blackwell芯片中采用了224G SerDes，这正是其高速NVLink芯片的核心所在。同样，博通也从2024年底开始在其光DSP中提供224G SerDes的样品。这两家在AI浮点运算能力方面领先的公司同时也是高速SerDes IP领域的领军者，这绝非巧合。这进一步印证了AI性能与吞吐量之间的根本联系：最大化数据传输效率与提供强大的计算能力同样至关重要。

然而，在理想传输距离下提供更高的线路速度正变得越来越具有挑战性。如下图所示，随着频率的增加，插入损耗也会增加。可以看到，在更高的SerDes信号传输速度下，损耗会增加，尤其是在信号路径延长的情况下。

来源：博通

SerDes 的扩展性已接近瓶颈。在不增加信号恢复组件的情况下，更高的传输速率只能在极短的距离内维持——而这些组件反过来又会增加复杂性、成本、延迟和功耗。因此，实现 224G SerDes 一直困难重重。

展望 448G SerDes，能否突破几厘米的传输距离仍存在诸多不确定性。英伟达在 Rubin 芯片中采用双向 SerDes 技术，实现了每个电通道 448G 的连接。要实现真正的 448G 单向 SerDes，还需要进一步的研发。我们可能需要采用更高阶的调制方式，例如 PAM6 或 PAM8，而不是自 56G SerDes 时代以来一直沿用的 PAM4 调制。使用每个信号编码 2 位的 PAM4 来实现 448G 传输速率，需要 244Gbaud 的波特率，这很可能由于过高的功耗和插入损耗而难以实现。

SerDes 扩展瓶颈成为 NVLink 扩展的障碍

在 NVLink 协议中，NVLink 5.0 的带宽相比 NVLink 1.0 提升了 11 倍以上。然而，这种增长并非源于通道数量的显著增加，通道数量仅从 NVLink 1.0 的 32 条略微增加到 NVLink 5.0 的 36 条。带宽扩展的关键驱动因素是 SerDes 通道速度的 10 倍提升，从 20G 提升至 200G。然而，在 NVLink 6.0 中，Nvidia 预计将继续使用 200G SerDes，这意味着它必须将通道数量翻倍——Nvidia 巧妙地利用双向 SerDes 实现了这一点，在物理铜线数量不变的情况下，有效地将通道数量翻倍。除此之外，无论是提升 SerDes 速度，还是克服有限的线路容量来容纳更多通道，都将变得越来越困难，最终总带宽将无法满足需求。

对于那些以吞吐量作为竞争优势的尖端企业而言，扩展逃逸带宽至关重要。对于拥有NVLink扩展架构的英伟达来说，这一障碍可能会让AMD等竞争对手以及超大规模数据中心运营商更容易迎头赶上。

来源：英伟达、SemiAnalysis

解决这一难题的方案——或者说，必要的折衷方案——是尽可能缩短电气输入/输出距离，并将数据传输卸载到尽可能靠近主机ASIC的光链路上，以实现更高的带宽。这就是为什么CPO被认为是互连领域的“圣杯”。CPO允许在ASIC封装上进行光通信，无论是通过基板还是中介层。电信号只需在封装基板上传输几毫米，理想情况下，通过更高质量的中介层传输更短的距离，而无需像传统方式那样通过损耗较大的覆铜层压板（CCL）传输数十厘米。

SerDes可以针对短距离传输进行优化，所需的电路比同等长距离的SerDes少得多。这不仅简化了设计，还降低了功耗和芯片面积。这种简化使得高速SerDes更容易实现，并扩展了SerDes的扩展路线图。然而，我们仍然受到传统带宽模型的限制，即带宽密度仍然与SerDes的速度成正比。

为了实现更高的带宽密度，在极短距离下，宽 I/O PHY 是更佳选择，其单位功耗带宽密度优于 SerDes 接口。宽 I/O 也意味着需要更复杂的封装。然而，对于 CPO 而言，这无关紧要：其封装技术已经非常先进，因此集成宽 I/O PHY 几乎不会增加额外的封装复杂性。

宽 I/O 与 SerDes

一旦不再需要将电信号传输到相对较远的距离，我们就可以完全摆脱串行接口，转而使用宽接口，从而在短距离内提供更好的线宽密度。

UCIe接口就是一个例子。UCIe-A可提供高达~10 Tbit/s/mm的线宽密度，专为高级封装（例如，通过距离小于2mm的中介层连接的芯片组）而设计。在光罩尺寸芯片的长边上，这相当于高达330 Tbit/s（41TByte/s）的封装外带宽。这意味着从芯片两侧边缘到封装外的双向带宽可达660 Tbit/s。相比之下，Blackwell接口的封装外带宽仅为23.6 Tbit/s，相当于约0.4 Tbit/s/mm的线宽密度，两者差距显著。

来源：SemiAnalysis

当然，这并非完全等同的比较，因为这些封装外的PHY芯片需要用于远距离传输。恰恰相反，这正是本文要说明的重点：采用CPO技术后，传输距离不再是问题，因为信号无需通过电信号进行远距离传输。在10 Tbit/s/mm的带宽密度下，瓶颈不再是电接口，而是链路的其他部分，即另一端光纤能够传输多少带宽。

达到这种限制条件距离目前的实际情况还很遥远，而且OE必须与主机共享一个中介层。将CPO集成到中介层本身，其研发进度甚至比将OE可靠地集成到基板上还要慢。当然，基板上的PHY性能会更差，UCIe-S的线宽密度约为1.8Tbit/s/mm。但这仍然比我们认为224G SerDes的约0.4Tbit/s/mm的性能有了显著提升。

然而，尽管宽接口具有诸多优势，博通和英伟达仍然坚持在其产品路线图中推进电控SerDes技术。主要原因是他们相信SerDes仍具有可扩展性，并且需要针对铜缆进行设计，尤其是在光芯片普及速度缓慢的情况下。此外，混合封装的铜缆和光芯片解决方案似乎更有可能长期存在，这就要求他们同时针对这两种封装进行优化。采用这种方法是为了避免为不同的解决方案进行多次芯片流片。

链路弹性

链路弹性和可靠性是CPO技术的其他重要驱动因素。在大型AI集群中，链路中断会显著影响集群的整体可用性，即使链路可用性和稳定性方面有微小的提升，也能为基础设施投资带来巨大的回报。

如今，在一个拥有近百万条链路且采用可插拔模块的大型人工智能集群中，每天可能会发生数十次链路中断。其中一些是“硬”故障，由组件故障或硬件质量问题导致；而许多则是“软”故障，其根本原因多种多样，源于可插拔解决方案固有的复杂性和可变性。故障模式多种多样，包括但不限于信号完整性问题和波动、连接器和引线键合质量、组件和引脚污染、噪声注入以及其他瞬态效应。这些故障与组件故障的相关性很低。因链路故障而退回的光模块中，80%经检测“未发现故障”。

CPO 通过以下方式显著降低了大规模 AI 网络中高速信号路径固有的复杂性和可变性：

显著减少光接口中的组件数量。光子级和芯片/封装级的高集成度降低了关键高速组件的复杂性，并提高了系统级的可靠性和良率。电光接口的数量也减少了，从而最大限度地降低了每个接口处的功率损耗。
显著改善主机ASIC（例如交换机）与光引擎之间主机电气接口的信号完整性。通过将光引擎封装在具有非常明确且确定的设计规则和制造公差的第一级封装上，显著降低了插入损耗、反射和其他非线性损伤。
降低交换机高速信号路径中端口间的差异，可以减少DSP信号处理、主机和模块均衡、主机和模块固件以及链路优化算法的开销和复杂性。所有可插拔模块解决方案以及主机SerDes都必须设计成能够适应这种端口间性能的差异，否则会导致复杂性增加和故障点增多。
消除光链路配置中的“人为”因素。CPO交换机或光引擎在出厂前已完成组装和测试，确保“已知良好”，无需进行大量的现场操作来配置交换机中的光模块，从而避免了安装差异、损坏、污染以及系统和光模块之间的兼容性问题。

*本文转自媒体报道或网络平台，系作者个人立场或观点。我方转载仅为分享，不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益，请及时联系客服，我们作为中立的平台服务者将及时更正、删除或依法处理。