英伟达GB300 GPU液冷引入新供应商新方案

AIOT大数据发表于：2025-03-10 10:27:49 来自：暖通家

　　液冷技术：从GB200到GB300的跃迁　

　　英伟达GB300系列AI服务器被视为下一代高性能计算的标杆，其液冷技术方案的革新尤为引人注目。

　　GB200的液冷基石

　　在GB200的设计中，液冷技术已经展现出英伟达对高密度算力散热的深刻理解。以一个compute tray（计算托盘）为例，其冷板配置采用“一进一出”的设计，每个大冷板通过一对快接头与液冷系统相连。多个冷板回路经由manifold（分流器）汇集成一个整体回路，最终连接至机箱外壳。一个compute tray内部理论上包含两对快接头（冷板侧），加上与manifold连接的两对，总计需要六对快接头。以NVL72系统为例，18个compute tray共需108对快接头，再加上9个switch tray（每个两对），整个系统快接头总数达到126对。

来源: 台达电、Nidec、高力、DANFOSS

　　GB200的快接头设计中，冷板与manifold之间的连接均采用快接头，每根管子两端各配有一对（母端在冷板侧，公端在manifold侧）。值得一提的是，冷板上的母端快接头因结构隐藏在扣环内，外观上不易察觉，而manifold侧的公端较为凸出。这种设计在拆机图中常引发误解，但实际上快接头无处不在，确保了液冷系统的灵活性和可维护性。

来源: NVIDIA、Nidec、CoolIT、Danfoss

　　GB300的液冷革命

　　相比GB200，GB300在液冷设计上迈出了大胆一步。最显著的变化在于冷板结构的革新：GB300摒弃了大面积冷板覆盖多个芯片的模式，转而为每个芯片配备独立的“一进一出”液冷板。以NVL72系统为例，一个compute tray包含6个芯片，每个芯片对应两对快接头（进出各一对），共12对，加上与manifold连接的两对，总计14对快接头。整个系统18个compute tray的快接头数量因此激增至252对，较GB200的108对翻倍有余。

　　这种独立冷板设计的背后，是对算力密度提升的响应。GB300的芯片布局更加紧凑，传统大冷板已无法满足散热需求，而独立冷板不仅提高了散热效率，还为未来的模块化升级提供了可能。然而，这一变化也显著增加了快接头的使用量和系统复杂性。

　　相较前代GB200，GB300的液冷设计在结构、效率和供应链上均实现了突破：

　　独立液冷板设计　　

　　GB300摒弃了GB200的大面积冷板覆盖方案，改为每个GPU芯片配备独立的一进一出液冷板。这一设计显著提升了散热效率，同时允许更灵活的硬件配置。例如，在NVL72系统中，单个computetray的液冷板快接头数量从GB200的6对增至14对，系统总接头数达252对，是GB200的2倍。

　　快接头小型化与成本优化　　

　　GB300采用新型快接头NVUQD03，尺寸缩小至原型号的1/3，单颗价格从GB200的70-80美元降至40-50美元。这一变化既适应了高密度芯片布局的需求，也降低了整体液冷系统的成本。

　　散热效率与可靠性挑战　

　　尽管小型化可能增加漏液风险，但GB300通过优化密封工艺和加速测试（如插拔测试、材质可靠性验证）确保稳定性。冷板与manifold的连接仍采用快接头，但冷板端采用隐藏式母端设计，外观更紧凑。

　　供应链重构：从CPC到CoolerMaster的转向　

　　GB300的液冷供应链体系发生了显著变化：

　　供应商格局重塑　

　　GB200时代，快接头主要由CPC和Staubli主导，而GB300则引入CoolerMaster、AVC（富士达）和立敏达等新厂商。CoolerMaster凭借与英伟达的紧密合作率先通过验证，成为初期量产主力，占据主导地位。

　　技术门槛与验证周期　

　　快接头小型化带来的高精度组装和密封要求，迫使厂商投入更严格的测试流程。例如，CoolerMaster已完成数百小时加速寿命测试，而AVC和立敏达仍处于验证阶段。

　　国内供应链的潜在机会　

　　尽管CoolerMaster的工厂分布保密，但其部分产能可能依托中国大陆的Tier2供应商。高澜股份、英维克等中国厂商虽未直接参与快接头制造，但其液冷机柜和冷板解决方案在数据中心市场的渗透率逐步提升。

　　与GB200时期由CPC和Staubli主导的供应链体系不同，GB300的供应链选择反映了英伟达对快速迭代和小批量验证的需求。NVUQD03的小型化设计对组装公差、密封性能和断水功能提出了更高要求，国外厂商的谨慎态度可能使其错失先机。

　　小型化的双刃剑　

　　NVUQD03的尺寸缩小旨在解决空间受限问题，但并未降低漏液风险，反而因密封面积减小和组装精度要求提升而增加了潜在隐患。为确保可靠性，供应商需进行包括加速测试、插拔测试及材质可靠性测试在内的数百小时验证。目前，CoolerMaster已完成初步验证，但整体测试仍在进行中，量产稳定性仍需时间检验。

　　液冷设计的未来趋势

　　沿用与创新并存　

　　GB300在冷板设计上的革新并未全面推翻GB200的体系。manifold、CDU（冷却分配单元）及cartridge等组件均沿用原有设计，仅在核心散热模块上进行了调整。这种策略既降低了开发成本，又确保了系统的兼容性。

　　水冷全面化的前景　

　　当前，GB300的switch tray仍以气冷为主，仅主芯片采用水冷。然而，英伟达已透露出全面转向水冷的计划，包括前端transceiver连接器在内的所有组件都可能配备液冷模块。未来，每个光模块或将单独配备液冷板，取代快接头的铜管焊接设计将成为主流。这一转变将显著提升制造工艺复杂性和成本，但也为超高密度算力的实现铺平道路。现阶段，这一方案仍处于设计阶段，具体落地形式尚未明朗。

　　供应商交付与市场份额　

　　CoolerMaster在GB300项目中的领先地位为其赢得了先发优势，但AVC和立敏达的后续表现仍可能改变格局。目前，冷板及快接头模块的供应以CoolerMaster为主导，其中国大陆工厂或将借助国内Tier 2供应链支持生产，但具体合作伙伴信息尚不明朗。市场预测显示，随着GB300量产推进，快接头价格有望进一步下降，整体液冷方案的成本效益将逐步显现。

　　液冷技术的延伸：从芯片到光模块　

　　GB300的液冷方案不仅限于GPU：

　　Switchtray的散热转型

　　当前switchtray仍以气冷为主，但未来可能全面转向水冷。若光模块（如ConnectX-8 SuperNIC）采用液冷，每个光纤接头需独立液冷板，可能通过铜管焊接而非快接头连接，进一步推高成本。

　　液冷与电源协同设计　

　　单机柜功率密度攀升至140kW，液冷需与高效电源（如DrMOS）协同。GB300通过优化DrMOS设计降低电源成本35-40%，同时超级电容模组（尽管部分型号可能移除）被用于平抑毫秒级负载波动。

　　市场前景：液冷技术的“新石油”价值

　　需求爆发与市场规模　

　　据机构预测，2030年全球液冷市场规模将达213亿美元，中国液冷服务器市场年复合增长率47.6%。GB300的推出将加速这一进程，仅其快接头需求在2025年或超1.5亿颗。

　　技术竞争与生态壁垒

　　英伟达通过液冷方案绑定核心供应商（如CoolerMaster），形成技术生态壁垒。竞争对手需在小型化快接头、高精度制造等领域突破，方能分羹市场。

　　GB300能否填满AI的“渴望深渊”？

　　GB300的液冷技术虽显著提升了算力密度与能效，但挑战犹存：

　　成本压力：顶配服务器价格超300万美元，中小企业难以承受。

　　技术风险：小型化快接头的长期可靠性仍需验证，漏液风险可能影响数据中心稳定性。

　　生态依赖：供应链高度集中（如CoolerMaster主导）可能制约产能弹性。

　　GB300的液冷方案不仅是散热技术的迭代，更是算力时代基础设施的重构。其成功将取决于供应链协同、成本控制与长期可靠性验证。若英伟达能平衡这些因素，GB300或将成为AI“新石油”时代的关键油井，推动算力革命迈向新高度。

　　液冷效率的全面分析

　　在数据中心日益增长的计算密度和热负荷背景下，液冷技术已成为高效散热的关键解决方案。本报告深入分析液冷效率，涵盖其工作原理、与空气冷却的比较、不同类型效率以及实施中的挑战与机遇，旨在为数据中心运营者提供全面指导。

　　液冷技术的定义与工作原理

　　液冷利用液体（如水、乙二醇混合物或特殊冷却剂）通过循环系统吸收电子组件的热量，并通过散热器或冷却塔将热量排至外部环境。与传统的空气冷却（依靠风扇和空调）相比，液冷利用液体更高的热传导性和比热容，实现更高效的热传递，特别适合高性能计算设备，如AI服务器和GPU集群。

　　效率评估指标

　　评估液冷效率的关键指标包括：PUE（电力使用效率）：总能耗与IT设备能耗的比率，较低的PUE表示更高效率。

　　COP（性能系数）：冷却系统移除的热量与运行该系统所需的能量之比，反映能效。

　　这些指标帮助量化液冷在能耗和热管理方面的表现。

　　与空气冷却的效率比较

　　研究表明，液冷在热效率和能效方面显著优于空气冷却：

　　热效率：液体热传导率高出空气1000倍（Data Center Liquid Cooling - Is It Time for an Upgrade?），能更有效地移除高热密度（如超过20kW的机架），保持设备低温运行。

　　能效提升：NVIDIA和Vertiv的研究显示，高密度机架采用液冷后，PUE从1.5降至1.3，总能耗减少13%（Quantifying the Impact on PUE and Energy Consumption When Introducing Liquid Cooling Into an Air-cooled Data Center）。另一研究指出，全面实施液冷可减少设施能耗18.1%，总数据中心能耗减少10.2%（How Does Your Cooling System Affect Your Data Center’s PUE?）。

　　空间效率：液冷支持更高IT密度，允许在相同空间内部署更多计算资源，优化数据中心布局。

　　液冷类型的效率分析

　　液冷系统可分为以下类型，各有不同效率特点：

　　直接芯片冷却：液体直接接触芯片或热扩散器，热阻最小，效率最高，适合高热通量设备。

　　冷板冷却：通过附着在服务器上的冷板循环液体，热传递效率高，适用于标准机架。

　　浸没冷却：服务器完全浸没在绝缘液体中，提供均匀冷却，特别适合超高密度计算，但需使用特殊介质，可能增加成本。

　　实施中的挑战与局限　

　　尽管液冷效率高，但实施面临以下挑战：

　　初期成本与复杂性：液冷系统需额外泵、散热器和管道，初期投资高于空气冷却，维护也更复杂。

　　基础设施要求：现有空气冷却数据中心需改造以支持液冷，可能涉及重大工程。

　　可靠性与维护：液冷系统存在泄漏风险，需定期检查和维护以确保可靠性。

　　可持续性与额外优势　

　　液冷不仅提升效率，还支持热能再利用。例如，废热可用于加热建筑物或工业过程，降低碳足迹。这在追求可持续发展的数据中心中尤为重要。

　　实际案例与行业趋势

　　实际案例显示，采用液冷的数据中心如Facebook的Lule?数据中心（PUE 1.09）和Google的Hamina数据中心（PUE 1.10）达到行业领先效率。随着AI和大数据需求的增长，液冷市场预计至2026年达30亿美元，成为数据中心冷却的未来趋势。

　　结论

　　液冷技术在数据中心中展现出显著的热效率和能效优势，特别适合高密度计算负载。其PUE降低和能耗减少为数据中心运营提供了经济和环境效益。尽管初期成本和复杂性较高，但长期节能和可持续性潜力使其成为不可或缺的解决方案。

　　GB300芯片组液冷系统的参考设计与量产工艺在AI算力需求激增的背景下，英伟达的GB300芯片组作为下一代高性能计算核心，其液冷技术成为关键。背景与技术概述GB300芯片组相较于前代GB200，采用每个芯片独立冷板的设计。GB200使用大面积冷板覆盖多个芯片，而GB300为每个芯片配备单独的“一进一出”液冷板。这种转变旨在应对更高算力密度下的散热需求。以NVL72系统为例，每个计算托盘（compute tray）包含6个芯片，总计108个芯片。每个冷板通过快速接头连接至分流器（manifold），系统总热负荷根据假设为54千瓦。

　　快速接头采用新型NVUQD03，尺寸缩小至原先的三分之一，单价降至40-50美元，主要供应商包括CoolerMaster、AVC（旗下富士达）和立敏达（Readore）。

　　液冷系统的参考设计　

　　冷板设计　

　　·结构：每个芯片配备独立冷板，采用微通道或针状鳍片结构以最大化热传导。研究表明，微通道热沉的热传导率远高于传统设计，需优化流道布局避免局部热点（Microchannel Heat Sinks）。　

　　·材料：选用铜或铝，铜导热性高但成本较高，铝则更经济。设计需确保芯片温度均匀分布，维持在80°C以下。　

　　·连接：冷板通过热界面材料（TIM）如导热硅脂或焊料附着于芯片，确保热接触良好。

　　冷却液选择　

　　·选用水或水乙二醇混合物，热容量高，兼容性好。研究显示，水基冷却液在高性能计算中表现优异（Liquid Cooling in Data Centers）。

　　泵系统　

　　·泵需提供足够流量和压力，克服系统压降。假设每个冷板流量约1.43升/分钟（基于500瓦芯片功耗，温差5°C），计算托盘总流量8.58升/分钟，系统总流量154.44升/分钟。

　　热交换器　

　　·热交换器（如散热器或冷水机）需排热54千瓦。假设冷却液入口温度40°C，环境温度25°C，需设计足够换热面积，配合风扇辅助散热。

　　分流器设计　

　　·分流器（manifold）连接6个冷板，确保流量均匀分布。设计需考虑流体动力学，减少压降，可能采用流量控制阀。

　　快速接头　

　　·每个冷板有两对快速接头（入口和出口各一对），总计14对/计算托盘（12对冷板，2对分流器）。NVUQD03尺寸小，需确保密封性和耐久性，研究显示小型化可能增加漏液风险（Liquid Cooling: The Sustainable Solution Driving Efficiency in Data Centers）。

　　量产工艺流程　

　　量产需标准化制造和组装，确保效率和可靠性：

　　1.冷板制造　　

　　o工艺：使用CNC加工或注塑成型，创建微通道结构。对于大规模生产，注塑成型更经济。　

　　o材料处理：铜或铝板材，通过精密加工确保尺寸精度，微通道可通过光刻或3D打印实现。　

　　o质量控制：每块冷板测试热性能和泄漏，需通过压力测试。

　　2.组装过程　

　　o冷板与芯片连接：使用导热硅脂或焊料附着冷板于芯片，确保热接触良好。　　

　　o快速接头连接：将NVUQD03快速接头安装于冷板入口和出口，需确保密封性。　　

　　o分流器组装：将6个冷板通过管道连接至分流器，需确保流体路径无堵塞。　

　　o系统集成：多个计算托盘通过管道连接至中央泵和热交换系统，需测试整体性能。

　　3.质量控制与测试　

　　o单体测试：每块冷板测试泄漏和热性能，需进行数百小时加速测试和插拔测试。

　　o系统测试：整体系统测试流量分布、温度控制和压降，确保芯片温度低于80°C。　

　　o可靠性验证：模拟长期运行，测试密封性和耐久性，目前CoolerMaster已完成初步验证（H100 GPU from NVIDIA）。

　　参数表

　　行业趋势与未来展望

　　液冷技术市场预计至2026年达30亿美元，AI数据中心对高效率散热需求推动创新（Liquid and Immersion Cooling Options for Data Centers）。GB300的独立冷板设计提升散热效率，但量产中需克服小型化部件的制造精度和供应链协调挑战。未来可能通过自动化生产和材料创新进一步降低成本。

　　结论GB300芯片组的液冷系统设计需平衡热效率和制造可行性，量产工艺需标准化以确保可靠性。参数如流量和热负荷为行业提供了参考，助力AI算力中心的建设。

　　附：越南厂务服务内容

英伟达

下一篇： 中广电器集团邀请丽水市总工会协同丽水市人民医院开展暖心义诊
上一篇： 住建部部长倪虹：建设“好房子”是房地产企业和建筑企业转型发展的新赛道

91大全_91插插插影院_免费一区二区三区视频在线_伊人夜夜躁av伊人久久_国产精品久免费的黄网站_乱淫视频网站

英伟达GB300 GPU液冷引入新供应商新方案