【白皮书】AI服务器液冷板产品开发、制造组装、测试验证!

需要加入中国AI服务器液冷技术交流1群(快满员)的朋友,可长按二维码添加群主微信,并备注:公司+主营+姓名(请注意:未备注,恕不通过)

AI服务器的高速发展,使得服务器液冷从小众行业一跃成为千亿规模!本文主要面向IT设备冷板设计、制造及测试相关专业人员,为单相液冷冷板的开发、测试与可靠性评估提供全面指导。

全文较长,目录如下:

1.冷板制造及组装

冷板介绍、冷板类型 、冷板制造、冷板组装、冷板技术冷却系统

2.冷板开发要求

机械要求 、热性能要求、可靠性要求

3.冷板测试方法

机械测试、性能测试、可靠性测试


一、冷板制造及组装

1. 冷板介绍

冷板是集成了管路或流道的散热器,冷却液可流经其中实现散热。

冷板组件,通常由流体换热器和固定支架组成。冷板流体换热器通过焊接、钎焊或软钎焊等金属连接工艺与流体管道相连。

冷板换热器由冷板底座和顶盖组成。

冷板底座设计用于与处理器直接接触,处理器与底座之间需涂抹兼容的 TIM2 材料(热界面材料),以提升冷板解决方案的热性能。冷板顶盖用于封闭流体流道,通常集成流体连接器,引导冷却液流经流道。

2. 冷板类型

冷板主要分为一体式冷板和分体式冷板:

  • 一体式冷板:流体换热器与固定支架集成一体,不可拆分。由于支架与冷板设计绑定,难以适配后续代际的处理器;

  • 分体式冷板:流体换热器与固定支架为独立组件,模块化设计使其可通过重新设计支架适配新一代处理器,同时复用流体换热器,实现成本节约。

3.  冷板制造

冷板换热器顶盖与底座的主要组装工艺包括钎焊、搅拌摩擦焊、锡焊和 O型圈密封。下表列出了各工艺的优缺点:

冷板制造过程中的工艺偏差和过程控制不足可能导致产品缺陷,影响性能和可靠性。

冷板产品验证计划应包含制造生产线的代表性样品,以评估工艺控制范围内冷板的性能和可靠性。

4. 冷板组装

冷板组件由冷板、冷却液管和快速接头组成,客户产品设计中还可集成转换连接器和泄漏检测硬件等可选组件。各组件说明如下:

  • 冷却液管:用于从冷却回路向冷板输送冷却液,金属材质可选铜或铝,非金属材质可选 PTFE(聚四氟乙烯)、PEX(交联聚乙烯)或 EPDM(三元乙丙橡胶),材质选择需适配冷板流体连接器的类型和设计;可在管道和连接器周围缠绕泄漏检测绳 电缆,实现泄漏监测;

  • 快速接头:便于冷板和冷却液管与液冷回路及 IT 设备快速断开,提升可维护性;

  • 转换连接器(可选):用于连接冷板组件中的冷却液管和快速接头;

  • 泄漏检测(强烈推荐):检测到泄漏时向数据中心操作员发出警报。

5. 冷板技术冷却系统

冷板技术冷却系统由信息技术设备(ITE)、冷板、冷却液管、快速接头(QDs)、刀片式歧管、二级冷却回路、冷却液分配单元(CDU)、设施水系统(FWS)及冷却塔或冷水机构成。

该系统为冷板提供温度和压力稳定的冷却液。冷却系统中所有与冷却液接触的润湿材料均需与冷却液兼容。


二、冷板开发要求

1.机械要求

1冷板机械设计

冷板需满足处理器供应商针对处理器散热解决方案制定的所有结构要求(参考处理器热学和机械设计规范中的关键指标,如质量、平整度等)。此外,还需符合以下机械设计要求:

  • 符合产品设计要求、产品禁区(KOZ)要求,并融入固定硬件的接口控制图(ICD)要求;

  • 冷板固定硬件施加于处理器的机械载荷,在冷板整个使用寿命内需符合处理器规范中规定的封装载荷要求;

  • 冷板的安装与拆卸流程需符合处理器的设计和制造规范;

  • 冷板底座下表面的平整度可能影响机械性能和热性能,需按冷板性能要求明确规格;

  • 冷板底座下表面的平均粗糙度(Ra)需按机械性能和热性能要求明确规格;

  • 冷板底座下表面与处理器集成散热器(IHS)或芯片区域接触的 X方向尺寸可能影响热性能,需按冷板性能要求设计(图 中蓝色轮廓代表处理器的 IHS 或芯片区域);

  • 冷板高度需适配产品机箱,高度测量范围为底座下表面至流体连接器顶部。

2冷板流体接头

冷板流体接头需满足以下要求:

  • 静水压测试中,连接器与冷板换热器接口、连接器与冷却液管接口均无泄漏和变形;

  • 设计需防止流体滞留或空化现象。

3冷板冷却回路集成

冷板与冷却回路集成时需考虑以下要求:

  • 连接器的位置和方向需适配产品冷却液管的布线设计;

  • 技术冷却系统中润湿金属的电极电位差应尽可能小,以防止冷板腐蚀;若润湿材料包含不同金属,强烈建议执行集成腐蚀验证计划,评估不同金属在冷却液中的腐蚀风险;

  • 冷板设计中任何金属 - 金属接口的电化学电位差不得超过 0.15V,以防止电偶腐蚀;

  • 微通道冷板换热器的鳍片厚度、鳍片高度和鳍片间距会影响流体流量能力和冷板组件的流阻;

  • 冷板组件的流阻需低于冷却泵提供的流体压力;

  • 建议了解冷却液流量随温度的变化规律(如图 8 所示),以评估是否需要根据季节温度变化调整冷板流体流量。

4冷板外观要求

冷板需符合以下外观要求:

  • 顶盖表面光滑,无可见缺陷和变形;

  • 底座下表面无可见缺陷和变形;

  • 固定支架无可见缺陷和变形;

  • 流体连接器无可见缺陷和变形。

2. 热性能要求

冷板性能需在产品整个使用寿命内满足处理器供应商热规范中规定的处理器温度要求。确定冷板热性能要求时,需明确以下热边界条件:

  • 处理器热规范中规定的最高允许温度;

  • 冷板技术冷却系统提供给处理器的冷却液温度和流量;

  • 冷却液进入冷板的最大流速应低于 1.5m/s,以防止冷板组件被侵蚀。

3. 可靠性要求

1静水压

冷板需按 IEC FDIS 62368-1 [8] 标准完成静水压测试,测试后无可检测泄漏和机械变形,测试前后尺寸需保持统计等效。

2腐蚀

  • 流体兼容性:冷板润湿表面需与冷却液具有化学兼容性和耐腐蚀性;冷却液中的杀菌剂和缓蚀剂浓度需维持最低标准,确保对冷板提供生物防护和腐蚀防护(测试需涵盖冷却回路的所有润湿材料);

  • 盐雾测试:冷板需按 ASTM B117 [4] 标准完成盐雾测试,评估外表面耐腐蚀性;测试后表面无腐蚀、点蚀或变色现象;建议盐雾测试后对冷板组件进行静水压测试,检测材料降解可能导致的泄漏。

3动力学性能

  • 冲击:冷板需完成符合产品验证标准的冲击测试,测试后进行静水压测试,检测冲击应力可能导致的泄漏;冲击测试后冷板热性能需保持统计等效;

  • 振动:冷板需完成符合产品验证标准的振动测试,测试后进行静水压测试,检测振动应力可能导致的泄漏;振动测试后冷板热性能需保持统计等效。

4温度循环

建议冷板完成温度循环测试计划,测试后进行静水压测试,检测运输或工作极端温度与制造工艺共同作用可能导致的泄漏。

三、冷板测试方法

1.机械测试

1尺寸测试

按以下方法验证冷板尺寸是否符合产品要求:

  • 用游标卡尺测量冷板高度;

  • 用游标卡尺测量冷板内流体流道的长度、宽度、节距和高度;

  • 按参考文献 [5] 中的 ISO 12781-2:2011 标准测量冷板底座下表面的平整度;

  • 按参考文献 [6] 中的 ISO 21920-2:2021 标准测量冷板底座下表面的粗糙度;

  •  X 射线或类似成像技术确认流体流道鳍片无扭曲、变形或杂物。

2结构测试

参考处理器技术规范,验证冷板散热解决方案的关键结构要求(如质量、平整度等),并采用规范推荐的测试方法。

3冷板集成测试

冷板需完成以下验证,确保设计符合组装要求:

  •  X 射线或类似分析方法检测冷板换热器的制造缺陷(如孔隙、流道杂物、焊接质量等);

  • 对于两件式冷板,验证换热器与固定支架装配无干涉;

  • 检查连接器规格(如尺寸、倒刺结构、安装方向等)是否符合产品设计要求;

  • 将冷板集成到产品冷板组件中,完成静水压测试,确认换热器与连接器、冷却液管之间无泄漏。

4外观测试

  • 按工厂外观检验标准对冷板外表面进行目视检查;

  • 将冷板换热器浸入超声波清洗设备(或类似功能设备)中,用透明流体冲洗,验证排出流体无变色,且冲洗液中悬浮物尺寸小于 50μm

2.性能测试

1热性能测试

将冷板涂抹推荐的 TIM2 材料,安装在代表性产品板上的功能性处理器栈上,并连接冷却回路;测试前确保冷却回路中无气泡;稳定冷板换热器的流体流量,向处理器施加功率,保持功率恒定直至处理器壳温(Tc)和冷却液入口温度(TL)稳定;稳定后记录冷板组件的压降、处理器壳温(Tc)、冷却液入口温度(TL)、施加功率(Q)及流体流量。

特定冷却液流量下的冷板热阻按以下公式(1)计算:

其中:

R—— 冷板热阻,单位为℃/W

Tc—— 被测发热组件的壳温,单位为

TL—— 被测冷板的冷却液入口温度,单位为

Q—— 施加于被测发热组件的功率,单位为 W

需在多个冷却液流量下测量冷板热阻,以明确热性能随流量的变化规律(图 9 为冷板热性能与流量的关系示例图)。

2冷板流体压降测试

参考图 10 (a) 搭建实验室级技术冷却系统(TCS)回路,包含冷板、冷却液管、快速接头和冷却液分配单元(CDU);在冷板冷却液进出口管道之间连接数字压力表(如 Omega DPG409-015G);通过 CDU 向冷板提供恒定流量的流体,记录压力表读数;按图 10 (b) 所示,断开冷板并将冷却液进出口管道直接连接,在相同 CDU 流量下记录压力表读数;冷板压降为图 10 (a) 和图 10 (b) 配置下的压力差值。

冷板压降需低于 TCS 提供的冷却液压力,以保证流体正向流动;热性能要求的冷却液流量目标需考虑冷板的预期压降。

3.可靠性测试

1静水压测试

静水压测试是检测正常和预期工作条件下泄漏的关键质量和可靠性测试,可参考以下两项行业标准:

欧洲标准 EN 1779 [7](采用加压气体的泄漏检测方法):

  • 压力衰减测试:测量冷板总压力的下降值,建议压降不超过 0.5%

  • 浸泡气泡测试:对冷板加压后浸入流体中,通过观察气泡或气泡流检测泄漏;

UL 解决方案标准 IEC FDIS 62368-1 [8](规定静水压泄漏测试的加压时间和安全系数):

  • 将冷板加压至最大工作压力,保压 5 分钟,检查冷板及连接器是否泄漏;

  • 将冷板加压至 3 倍最大工作压力,保压 分钟,检查冷板及连接器是否泄漏。

测试介质可选用气体或冷却液。

2腐蚀测试

流体兼容性测试:冷板技术冷却系统由金属和聚合物 / 弹性体材料组成,均与冷却液接触;冷板可靠性取决于冷却液与所有润湿材料的化学兼容性 —— 冷却液需为金属组件提供可靠的腐蚀防护,且不导致聚合物 弹性体材料析出污染物(部分聚合物 弹性体材料可能吸收冷却液中的缓蚀剂,降低缓蚀效果)。

评估流体兼容性的推荐方法包括:

  •  ASTM D2570 标准进行冷却液与金属的腐蚀和材料兼容性测试,评估循环冷却液对金属试样的影响,检测受控实验室条件下的电偶腐蚀;

  •  ASTM D6130D5185 标准,采用电感耦合等离子体(ICP)法测量溶液中的金属离子浓度,识别早期腐蚀迹象并制定预防性维护计划;

  •  ASTM D1287D1121 标准测试冷却液的 pH 值和储备碱度,评估乙二醇降解为乙醇酸导致的冷却液变质;

  •  ASTM D5827 标准,采用离子色谱法测试冷却液中的氯离子及其他阴离子浓度,评估导致金属点蚀的活性阴离子含量;

  • l采用气相色谱(GC)和液相色谱(LC)测试冷却液,跟踪有机缓蚀剂浓度,识别析出的其他有机污染物 [9]

盐雾测试: ASTM B117 标准在盐雾箱中进行测试,评估冷板外表面涂层的耐腐蚀性(冷板表面钝化或阳极氧化处理可降低盐雾腐蚀风险)。

测试条件如下:

  • 密封冷板进出口,将样品放入 35℃盐雾箱;

  • NaCl 溶液质量浓度为 5%

  • NaCl 溶液 pH 值为 6.5~7.2

  • 盐雾喷射量约为 2ml / 小时 / 80cm²

  • 暴露测试时间为 8 小时。

盐雾测试后需测量冷板热性能,确保无统计显著的热降解;建议同时进行静水压测试,检测腐蚀导致的材料降解可能引发的泄漏。

3动力学测试

冲击测试:将冷板安装在代表性产品板上的对应 CPU 栈上,按产品验证要求执行冲击测试;测试后目视检查冷板外观是否符合要求,CPU 栈和产品板是否受损;对安装状态的冷板进行静水压测试,验证冲击应力未导致冷板及连接器泄漏;

振动测试:将冷板安装在代表性产品板上的对应 CPU 栈上,按产品验证要求执行振动测试;测试后目视检查冷板外观是否符合要求,CPU 栈和产品板是否受损;对安装状态的冷板进行静水压测试,验证振动应力未导致冷板及连接器泄漏。

4温度循环测试

将冷板涂抹推荐的 TIM2 材料,安装在代表性产品板上的功能性处理器栈上,按产品验证要求执行温度或功率循环测试 —— 温度范围需覆盖冷板工作温度极值,循环次数需匹配处理器使用寿命内的预估功率循环次数。测试后冷板热性能需符合产品验证要求;对安装状态的冷板进行静水压测试,验证温度循环应力未导致冷板及连接器泄漏。

附录 A分体式冷板组装

流体换热器与固定支架的固定方式如图 A 所示(单位:mm)。

参考文献

OCPACS 液冷冷板要求文档,版本 1.02019 年 10 月;

ASHRAE TC 9.9 第五版:2021 年数据处理环境设备热指南,2021 年;

ASHRAE 数据通信系列 4:数据通信设备中心液冷指南;

ASTM B117:盐雾(雾)测试设备操作标准规程;

ISO 12781-2:2011:几何产品规范(GPS— 平面度 — 第 部分:规范运算符;

ISO 21920-2:2021:几何产品规范(GPS— 表面结构:轮廓 — 第 部分:术语、定义和表面结构参数;

EN 1779 标准:泄漏测试 — 方法和技术选择标准;

IEC 62368-1:音视频、信息和通信技术设备 — 第 部分:安全要求,第三版,2018 年;

《发动机冷却液测试:第四卷》,贝尔・RESTP1335-EBASTM1999 年(书籍)。