在AI大模型持续演进的今天,数据中心正迎来一次底层架构级的变革。

在TechWeek上海站《液冷2.0:废热资产化与算点协同创新》论坛上,优刻得架构师徐智宇围绕“液冷技术在数据中心的应用与实践”进行了系统分享,从行业趋势、技术路线到规模化部署经验,深入解析了液冷如何成为AI时代算力基础设施的关键能力。

图片

过去,传统数据中心主要承载搜索、电商、社交等通用计算业务,CPU是核心算力单元,单机柜功率密度普遍在6-8kW,风冷足以满足散热需求。

但进入大模型时代后,一切都发生了变化。

当前主流高性能GPU单芯片功耗已达到700W-1400W,8卡AI服务器整机功耗突破14kW,单机柜功率密度快速迈向50kW、100kW甚至更高。与此同时,“东数西算”等政策持续推进数据中心节能降碳,新建大型数据中心PUE被要求降至1.25以下。

这意味着,传统风冷体系已经越来越难支撑下一代智算中心的发展需求。

AI时代,为什么液冷成为“必选项”?

AI大模型带来的,不只是算力需求增长,更是热密度的指数级攀升。

以当前主流GPU服务器为例,单台设备功耗已经接近甚至超过传统单机柜的设计上限。对于大量部署GPU集群的智算中心而言,散热能力正在成为制约算力释放的核心瓶颈。

与此同时,风冷方案也面临三大现实挑战:

  • 散热能力接近物理极限:传统风冷机柜经济散热上限普遍在15-30kW,难以满足高密度AI集群需求

  • 能耗与PUE压力持续增加:风冷数据中心PUE通常在1.45以上,而液冷可进一步降低至1.2以内

  • 空间与运维成本上升:风冷需要大量风道与空调空间,同时高噪音、高振动、高灰尘环境也会影响设备稳定性

相比之下,液冷通过液体直接带走热量,大幅提升换热效率,可有效降低能耗、提升部署密度,并显著改善设备长期可靠性。

液冷已经不再是锦上添花的优化选项,而是高密度算力部署的核心基础设施能力。

液冷技术路线,正在走向分层演进

目前行业主流液冷方案主要包括两大方向:冷板式液冷与浸没式液冷。其中,冷板式液冷是当前产业的主流。

图片

其核心原理是在CPU、GPU等核心发热芯片顶部部署冷板,通过液体循环直接带走大部分热量,兼顾高效散热与现有服务器架构兼容性。由于改造成本较低、部署成熟度高,目前已成为多数智算中心优先采用的方案。

而浸没式液冷,则代表着更高密度场景下的未来方向。

通过将服务器整体浸泡于绝缘冷却液中,浸没式液冷可以实现全域均匀散热,进一步突破高功率密度限制。其中,相变浸没式液冷甚至可将PUE降至1.08以下,成为超高密度算力场景的重要探索方向。

不过,技术路线并不存在“绝对先进”。

不同方案需要结合实际业务密度、建设预算、运维体系等综合评估:

  • 冷板式液冷:更适合当前大规模商业化部署

  • 浸没式液冷:更适用于100kW以上超高密度场景

液冷真正的挑战,不只是“散热”

随着液冷从实验室走向规模化落地,行业关注点也正在从“能不能做”转向“如何稳定运营”。

在实际部署过程中,液冷系统不仅涉及散热本身,更牵涉到供冷架构、运维体系、安全管理等一整套系统工程。

例如:

  • 如何降低漏液风险

  • 如何实现冷却液长期稳定运行

  • 如何完成CDU冗余与供冷切换

  • 如何解决浸没式液冷下的设备吊装、吹干与维护流程

  • 如何进行复杂的水力平衡设计

这些问题,都决定了液冷项目能否真正实现长期稳定运行。

因此,液冷能力比拼的核心,已经不仅是单一产品能力,而是从方案设计、交付实施到长期运营管理的全生命周期能力。

液冷的未来,不止于“降温”

在徐智宇看来,未来3-5年,液冷行业将迎来三大趋势:

图片

1、液冷与芯片进一步深度融合

未来冷却液将更接近芯片本体,甚至直接进入芯片内部微流道,实现更高效率散热,为下一代超高密度算力打开空间。

2、国产化供应链持续成熟

随着国产冷却液、快接头、液冷泵等核心部件能力提升,液冷整体成本正在快速下降,行业有望迎来规模化普及拐点。

3、数据中心向能源节点演进

液冷系统可输出40-60℃稳定热水,为城市供暖、工业余热回收等场景提供可能。未来,数据中心不仅是“算力中心”,也可能成为城市能源系统的重要组成部分。

优刻得:面向AI时代的液冷智算基础设施

作为国内较早布局AI基础设施与智算中心能力的云厂商之一,优刻得持续推进液冷技术与智算基础设施融合演进。

优刻得自建的位于上海青浦、内蒙古乌兰察布新一代智算中心,全面按照液冷标准进行规划设计,覆盖冷板式与浸没式液冷等多种部署能力。(浸没式液冷详情:优刻得全浸没液冷:打造静冷、高密、绿色的新一代智算底座)重点面向大模型训练、AI推理、高性能计算等场景,提供高密度、高能效的新型算力基础设施能力。

在此基础上,优刻得也逐步沉淀并形成了面向高密度智算集群建设的一体化服务体系,将自身在液冷智算中心建设与运营中的实践经验,输出为可规模化复制的体系化能力,包括:

  • 液冷数据中心整体架构设计

  • 高密度GPU集群部署与调优

  • 智算网络与高性能存储优化

  • AI训练与推理平台支撑

  • 智算中心全生命周期运维管理

通过从基础设施、算力集群到平台运维的全链路能力整合,优刻得能够为企业客户提供更稳定、更高效、更具扩展性的高密度智算集群建设方案,助力AI业务快速落地与规模化发展。

Logo

更多推荐