英伟达GB300 GPU液冷引入新供应商新方案
液冷技术:从GB200到GB300的跃迁
英伟达GB300系列AI服务器被视为下一代高性能计算的标杆,其液冷技术方案的革新尤为引人注目。
GB200的液冷基石
在GB200的设计中,液冷技术已经展现出英伟达对高密度算力散热的深刻理解。以一个compute tray(计算托盘)为例,其冷板配置采用“一进一出”的设计,每个大冷板通过一对快接头与液冷系统相连。多个冷板回路经由manifold(分流器)汇集成一个整体回路,最终连接至机箱外壳。一个compute tray内部理论上包含两对快接头(冷板侧),加上与manifold连接的两对,总计需要六对快接头。以NVL72系统为例,18个compute tray共需108对快接头,再加上9个switch tray(每个两对),整个系统快接头总数达到126对。
来源: 台达电、Nidec、高力、DANFOSS
GB200的快接头设计中,冷板与manifold之间的连接均采用快接头,每根管子两端各配有一对(母端在冷板侧,公端在manifold侧)。值得一提的是,冷板上的母端快接头因结构隐藏在扣环内,外观上不易察觉,而manifold侧的公端较为凸出。这种设计在拆机图中常引发误解,但实际上快接头无处不在,确保了液冷系统的灵活性和可维护性。
来源: NVIDIA、Nidec、CoolIT、Danfoss
GB300的液冷革命
相比GB200,GB300在液冷设计上迈出了大胆一步。最显著的变化在于冷板结构的革新:GB300摒弃了大面积冷板覆盖多个芯片的模式,转而为每个芯片配备独立的“一进一出”液冷板。以NVL72系统为例,一个compute tray包含6个芯片,每个芯片对应两对快接头(进出各一对),共12对,加上与manifold连接的两对,总计14对快接头。整个系统18个compute tray的快接头数量因此激增至252对,较GB200的108对翻倍有余。
这种独立冷板设计的背后,是对算力密度提升的响应。GB300的芯片布局更加紧凑,传统大冷板已无法满足散热需求,而独立冷板不仅提高了散热效率,还为未来的模块化升级提供了可能。然而,这一变化也显著增加了快接头的使用量和系统复杂性。
相较前代GB200,GB300的液冷设计在结构、效率和供应链上均实现了突破:
独立液冷板设计
GB300摒弃了GB200的大面积冷板覆盖方案,改为每个GPU芯片配备独立的一进一出液冷板。这一设计显著提升了散热效率,同时允许更灵活的硬件配置。例如,在NVL72系统中,单个computetray的液冷板快接头数量从GB200的6对增至14对,系统总接头数达252对,是GB200的2倍。
快接头小型化与成本优化
GB300采用新型快接头NVUQD03,尺寸缩小至原型号的1/3,单颗价格从GB200的70-80美元降至40-50美元。这一变化既适应了高密度芯片布局的需求,也降低了整体液冷系统的成本。
散热效率与可靠性挑战
尽管小型化可能增加漏液风险,但GB300通过优化密封工艺和加速测试(如插拔测试、材质可靠性验证)确保稳定性。冷板与manifold的连接仍采用快接头,但冷板端采用隐藏式母端设计,外观更紧凑。
供应链重构:从CPC到CoolerMaster的转向
GB300的液冷供应链体系发生了显著变化:
供应商格局重塑
GB200时代,快接头主要由CPC和Staubli主导,而GB300则引入CoolerMaster、AVC(富士达)和立敏达等新厂商。CoolerMaster凭借与英伟达的紧密合作率先通过验证,成为初期量产主力,占据主导地位。
技术门槛与验证周期
快接头小型化带来的高精度组装和密封要求,迫使厂商投入更严格的测试流程。例如,CoolerMaster已完成数百小时加速寿命测试,而AVC和立敏达仍处于验证阶段。
国内供应链的潜在机会
尽管CoolerMaster的工厂分布保密,但其部分产能可能依托中国大陆的Tier2供应商。高澜股份、英维克等中国厂商虽未直接参与快接头制造,但其液冷机柜和冷板解决方案在数据中心市场的渗透率逐步提升。
与GB200时期由CPC和Staubli主导的供应链体系不同,GB300的供应链选择反映了英伟达对快速迭代和小批量验证的需求。NVUQD03的小型化设计对组装公差、密封性能和断水功能提出了更高要求,国外厂商的谨慎态度可能使其错失先机。
小型化的双刃剑
NVUQD03的尺寸缩小旨在解决空间受限问题,但并未降低漏液风险,反而因密封面积减小和组装精度要求提升而增加了潜在隐患。为确保可靠性,供应商需进行包括加速测试、插拔测试及材质可靠性测试在内的数百小时验证。目前,CoolerMaster已完成初步验证,但整体测试仍在进行中,量产稳定性仍需时间检验。
液冷设计的未来趋势
沿用与创新并存
GB300在冷板设计上的革新并未全面推翻GB200的体系。manifold、CDU(冷却分配单元)及cartridge等组件均沿用原有设计,仅在核心散热模块上进行了调整。这种策略既降低了开发成本,又确保了系统的兼容性。
水冷全面化的前景
当前,GB300的switch tray仍以气冷为主,仅主芯片采用水冷。然而,英伟达已透露出全面转向水冷的计划,包括前端transceiver连接器在内的所有组件都可能配备液冷模块。未来,每个光模块或将单独配备液冷板,取代快接头的铜管焊接设计将成为主流。这一转变将显著提升制造工艺复杂性和成本,但也为超高密度算力的实现铺平道路。现阶段,这一方案仍处于设计阶段,具体落地形式尚未明朗。
供应商交付与市场份额
CoolerMaster在GB300项目中的领先地位为其赢得了先发优势,但AVC和立敏达的后续表现仍可能改变格局。目前,冷板及快接头模块的供应以CoolerMaster为主导,其中国大陆工厂或将借助国内Tier 2供应链支持生产,但具体合作伙伴信息尚不明朗。市场预测显示,随着GB300量产推进,快接头价格有望进一步下降,整体液冷方案的成本效益将逐步显现。
液冷技术的延伸:从芯片到光模块
GB300的液冷方案不仅限于GPU:
Switchtray的散热转型
当前switchtray仍以气冷为主,但未来可能全面转向水冷。若光模块(如ConnectX-8 SuperNIC)采用液冷,每个光纤接头需独立液冷板,可能通过铜管焊接而非快接头连接,进一步推高成本。
液冷与电源协同设计
单机柜功率密度攀升至140kW,液冷需与高效电源(如DrMOS)协同。GB300通过优化DrMOS设计降低电源成本35-40%,同时超级电容模组(尽管部分型号可能移除)被用于平抑毫秒级负载波动。
市场前景:液冷技术的“新石油”价值
需求爆发与市场规模
据机构预测,2030年全球液冷市场规模将达213亿美元,中国液冷服务器市场年复合增长率47.6%。GB300的推出将加速这一进程,仅其快接头需求在2025年或超1.5亿颗。
技术竞争与生态壁垒
英伟达通过液冷方案绑定核心供应商(如CoolerMaster),形成技术生态壁垒。竞争对手需在小型化快接头、高精度制造等领域突破,方能分羹市场。
GB300能否填满AI的“渴望深渊”?
GB300的液冷技术虽显著提升了算力密度与能效,但挑战犹存:
成本压力:顶配服务器价格超300万美元,中小企业难以承受。
技术风险:小型化快接头的长期可靠性仍需验证,漏液风险可能影响数据中心稳定性。
生态依赖:供应链高度集中(如CoolerMaster主导)可能制约产能弹性。
GB300的液冷方案不仅是散热技术的迭代,更是算力时代基础设施的重构。其成功将取决于供应链协同、成本控制与长期可靠性验证。若英伟达能平衡这些因素,GB300或将成为AI“新石油”时代的关键油井,推动算力革命迈向新高度。
液冷效率的全面分析
在数据中心日益增长的计算密度和热负荷背景下,液冷技术已成为高效散热的关键解决方案。本报告深入分析液冷效率,涵盖其工作原理、与空气冷却的比较、不同类型效率以及实施中的挑战与机遇,旨在为数据中心运营者提供全面指导。
液冷技术的定义与工作原理
液冷利用液体(如水、乙二醇混合物或特殊冷却剂)通过循环系统吸收电子组件的热量,并通过散热器或冷却塔将热量排至外部环境。与传统的空气冷却(依靠风扇和空调)相比,液冷利用液体更高的热传导性和比热容,实现更高效的热传递,特别适合高性能计算设备,如AI服务器和GPU集群。
效率评估指标
评估液冷效率的关键指标包括:PUE(电力使用效率):总能耗与IT设备能耗的比率,较低的PUE表示更高效率。
COP(性能系数):冷却系统移除的热量与运行该系统所需的能量之比,反映能效。
这些指标帮助量化液冷在能耗和热管理方面的表现。
与空气冷却的效率比较
研究表明,液冷在热效率和能效方面显著优于空气冷却:
热效率:液体热传导率高出空气1000倍(Data Center Liquid Cooling - Is It Time for an Upgrade?),能更有效地移除高热密度(如超过20kW的机架),保持设备低温运行。
能效提升:NVIDIA和Vertiv的研究显示,高密度机架采用液冷后,PUE从1.5降至1.3,总能耗减少13%(Quantifying the Impact on PUE and Energy Consumption When Introducing Liquid Cooling Into an Air-cooled Data Center)。另一研究指出,全面实施液冷可减少设施能耗18.1%,总数据中心能耗减少10.2%(How Does Your Cooling System Affect Your Data Center’s PUE?)。
空间效率:液冷支持更高IT密度,允许在相同空间内部署更多计算资源,优化数据中心布局。
液冷类型的效率分析
液冷系统可分为以下类型,各有不同效率特点:
直接芯片冷却:液体直接接触芯片或热扩散器,热阻最小,效率最高,适合高热通量设备。
冷板冷却:通过附着在服务器上的冷板循环液体,热传递效率高,适用于标准机架。
浸没冷却:服务器完全浸没在绝缘液体中,提供均匀冷却,特别适合超高密度计算,但需使用特殊介质,可能增加成本。
实施中的挑战与局限
尽管液冷效率高,但实施面临以下挑战:
初期成本与复杂性:液冷系统需额外泵、散热器和管道,初期投资高于空气冷却,维护也更复杂。
基础设施要求:现有空气冷却数据中心需改造以支持液冷,可能涉及重大工程。
可靠性与维护:液冷系统存在泄漏风险,需定期检查和维护以确保可靠性。
可持续性与额外优势
液冷不仅提升效率,还支持热能再利用。例如,废热可用于加热建筑物或工业过程,降低碳足迹。这在追求可持续发展的数据中心中尤为重要。
实际案例与行业趋势
实际案例显示,采用液冷的数据中心如Facebook的Lule?数据中心(PUE 1.09)和Google的Hamina数据中心(PUE 1.10)达到行业领先效率。随着AI和大数据需求的增长,液冷市场预计至2026年达30亿美元,成为数据中心冷却的未来趋势。
结论
液冷技术在数据中心中展现出显著的热效率和能效优势,特别适合高密度计算负载。其PUE降低和能耗减少为数据中心运营提供了经济和环境效益。尽管初期成本和复杂性较高,但长期节能和可持续性潜力使其成为不可或缺的解决方案。
GB300芯片组液冷系统的参考设计与量产工艺在AI算力需求激增的背景下,英伟达的GB300芯片组作为下一代高性能计算核心,其液冷技术成为关键。背景与技术概述GB300芯片组相较于前代GB200,采用每个芯片独立冷板的设计。GB200使用大面积冷板覆盖多个芯片,而GB300为每个芯片配备单独的“一进一出”液冷板。这种转变旨在应对更高算力密度下的散热需求。以NVL72系统为例,每个计算托盘(compute tray)包含6个芯片,总计108个芯片。每个冷板通过快速接头连接至分流器(manifold),系统总热负荷根据假设为54千瓦。
快速接头采用新型NVUQD03,尺寸缩小至原先的三分之一,单价降至40-50美元,主要供应商包括CoolerMaster、AVC(旗下富士达)和立敏达(Readore)。
液冷系统的参考设计
冷板设计
·结构:每个芯片配备独立冷板,采用微通道或针状鳍片结构以最大化热传导。研究表明,微通道热沉的热传导率远高于传统设计,需优化流道布局避免局部热点(Microchannel Heat Sinks)。
·材料:选用铜或铝,铜导热性高但成本较高,铝则更经济。设计需确保芯片温度均匀分布,维持在80°C以下。
·连接:冷板通过热界面材料(TIM)如导热硅脂或焊料附着于芯片,确保热接触良好。
冷却液选择
·选用水或水乙二醇混合物,热容量高,兼容性好。研究显示,水基冷却液在高性能计算中表现优异(Liquid Cooling in Data Centers)。
泵系统
·泵需提供足够流量和压力,克服系统压降。假设每个冷板流量约1.43升/分钟(基于500瓦芯片功耗,温差5°C),计算托盘总流量8.58升/分钟,系统总流量154.44升/分钟。
热交换器
·热交换器(如散热器或冷水机)需排热54千瓦。假设冷却液入口温度40°C,环境温度25°C,需设计足够换热面积,配合风扇辅助散热。
分流器设计
·分流器(manifold)连接6个冷板,确保流量均匀分布。设计需考虑流体动力学,减少压降,可能采用流量控制阀。
快速接头
·每个冷板有两对快速接头(入口和出口各一对),总计14对/计算托盘(12对冷板,2对分流器)。NVUQD03尺寸小,需确保密封性和耐久性,研究显示小型化可能增加漏液风险(Liquid Cooling: The Sustainable Solution Driving Efficiency in Data Centers)。
量产工艺流程
量产需标准化制造和组装,确保效率和可靠性:
1.冷板制造
o工艺:使用CNC加工或注塑成型,创建微通道结构。对于大规模生产,注塑成型更经济。
o材料处理:铜或铝板材,通过精密加工确保尺寸精度,微通道可通过光刻或3D打印实现。
o质量控制:每块冷板测试热性能和泄漏,需通过压力测试。
2.组装过程
o冷板与芯片连接:使用导热硅脂或焊料附着冷板于芯片,确保热接触良好。
o快速接头连接:将NVUQD03快速接头安装于冷板入口和出口,需确保密封性。
o分流器组装:将6个冷板通过管道连接至分流器,需确保流体路径无堵塞。
o系统集成:多个计算托盘通过管道连接至中央泵和热交换系统,需测试整体性能。
3.质量控制与测试
o单体测试:每块冷板测试泄漏和热性能,需进行数百小时加速测试和插拔测试。
o系统测试:整体系统测试流量分布、温度控制和压降,确保芯片温度低于80°C。
o可靠性验证:模拟长期运行,测试密封性和耐久性,目前CoolerMaster已完成初步验证(H100 GPU from NVIDIA)。
参数表
行业趋势与未来展望
液冷技术市场预计至2026年达30亿美元,AI数据中心对高效率散热需求推动创新(Liquid and Immersion Cooling Options for Data Centers)。GB300的独立冷板设计提升散热效率,但量产中需克服小型化部件的制造精度和供应链协调挑战。未来可能通过自动化生产和材料创新进一步降低成本。
结论GB300芯片组的液冷系统设计需平衡热效率和制造可行性,量产工艺需标准化以确保可靠性。参数如流量和热负荷为行业提供了参考,助力AI算力中心的建设。
附:越南厂务服务内容