众所周知,开源(Open Source)聚焦软件层面,其本质是开放源代码。今年以来,DeepSeek横空出世、阿里通义千问霸榜 HuggingFace,杀手锏之一便是开源,从而让开源理念逐渐进入公众视野,成功“出圈”。殊不知,开源的核心精神“开放”其实早已突破软件领域,向硬件基础设施延伸。开放计算浪潮,日益汹涌。

近日,在北京举办的AICC 2025人工智能计算大会上,一场关于开放计算与下一代GW级智算中心的化学反应——“开放智算中心技术创新”论坛闪亮登场。在论坛上,OCP基金会牵头的“GW 级开放智算中心OCP中国社区小组”正式成立,12 家创始成员单位(阿里云、百度、中国移动、快手、世纪互联、电子标准院、浪潮信息、广东省连接器协会、安澜万锦、立讯技术、亿纬锂能、中航光电等)共同开启开放智算新篇章。而就在此前一个多月,OCP与中电标协OCTC(开放计算标准工作委员会)联合主办的2025开放计算技术大会,就已围绕计算、存储、网络、液冷等底层架构创新,以及算法算力、硬件软件协同创新展开研讨,超千位学者、专家及厂商代表参与,开放计算正逐步“出圈”,成为AI基础设施发展的核心驱动力。

该论坛由OCP中国社区负责人叶毓睿主持,OCTC秘书长陈海致辞。接下来,我们一同来欣赏开放计算生态链各方为下一代GW级智算中心而进行的创新。

用户创新:从场景需求出发,重构智算集群核心能力

在GW级智算中心建设中,用户侧的需求是技术创新的核心牵引。中国移动、百度智能云、世纪互联、快手等企业基于自身大规模AI应用场景,在卡间互联、超节点架构、液冷基础设施等领域提出突破性解决方案,为开放智算提供“用户视角”的实践样本。

中国移动:突破算力瓶颈,构建“星河平台”与光互联未来

中国移动研究院网络与IT技术研究所副所长张晓光,以《面向大规模集群的新型智算创新实践及探索》为主题,直指当前智算集群的两大核心痛点:一是集群有效算力无法随规模线性增长,存在“剪刀差”;二是异构算力导致“资源墙”,难以弹性扩张。为解决这些问题,中国移动从三方面展开创新。

  1. OISA卡间互联协议:针对国内GPU多采用PCIe或私有协议、互联效率低的现状,推出OISA协议并完成1.0到2.0的迭代。2.0版本将互联规模从8卡提升至1024卡,点对点带宽从50-60G提升至TB级,时延从几十微秒降至几百纳秒,2026年将推出基于该协议的新一代GPU与Switch。
  2. 超节点智算集群架构:通过高速Switch连接32卡、64卡、128卡GPU形成“超节点”,满足不同场景需求。同时推动“三个统一”标准——基础设施统一(机柜、供电、制冷)、能力统一(超节点计算网络基线能力)、逻辑架构统一(灵活扩展的互联方案),解决高密度集群的供电、制冷、可靠性难题。
  3. 算力原生平台与光互联展望:针对国内10余家GPU厂商“各自为战”的生态现状,打造异构算力中间件,统一设备模型、内存模型与编程模型,支持ARM/X86两类CPU及9家厂商XPU;同时探索光互联技术,提出“光电混合”架构,利用光传输低损耗、高带宽优势,计划从超节点场景切入,构建光电集成芯片、光电融合服务器与交换机,未来实现“光速智算”。

百度智能云:昆仑芯片超节点与天池高密液冷整机柜的实践落地

百度智能云AI架构师武正辉分享了百度应对“模型装不下、算不尽”问题的解决方案——通过“Scale up”(纵向扩展)构建超节点,结合高密液冷整机柜突破算力瓶颈。其核心创新体现在三方面。

  1. 超节点设计逻辑:针对稠密模型(高算力需求)与稀疏模型(高带宽、低时延需求)的差异,构建大互联域,实现GPU显存共享,将大模型切分至多GPU进行并行计算。通过超节点突破单机柜GPU数量限制,解决大模型对算力,时延,带宽的极致要求。
  2. 天池高密液冷整机柜技术:采用21英寸机柜,IO前置便于散热,模块化设计,整机柜一体化交付(交付效率较单机提升数倍)。机柜供电采用3kW/5.5kW电源,支持多Power shift布局,解决GPU动态负载的电流冲击问题;液冷散热兼容风冷CDU,可在风冷/液冷机房灵活部署,同时通过智能化管理系统实时监控电源、电流、GPU运行状态与故障。
  3. Scale up网络架构:作为整机柜“中枢神经”,该网络支持国内外多厂商GPU兼容,采用私有协议(向下兼容56G、向上兼容224G),单柜采用cabletray架构,可支持6000 +铜缆互联,互联架构模块化设计便于运维,通过可编程芯片与自定义拥塞控制算法,实现无阻塞传输,可扩展至数千卡规模,推理性能均有很大提升。

世纪互联:Hyperscale2.0 时代,构建新型算力能源基础设施

世纪互联集团高级副总裁、能源创新事业部总经理鲍益直指GW级智算中心的“能源痛点”,提出从“单一用电载体”到“新型电力系统核心环节”的转型方案。

  1. GW级能源需求的挑战与应对:GW级智算中心年用电量可达70亿度,相当于一个地县年用电规模,传统供电架构面临“六高”挑战(高电力需求、高闲置、高损耗、高成本、高绿电、高密度适配难)。为此,世纪互联创新提出AI原生“电粒世界(Powerlet Universe)”新物种,并联合清华大学共同发起“SPEAR”全球协同创新倡议。
  2. 该倡议是在国家新型电力系统的战略指引下,以绿色能源和AI深度融合为核心,通过绿电直连、直流微电网、绿电交易、虚拟电厂等创新模式,将数据中心从“单一用电载体”转变为“新型电力系统重要组成部分”。世纪互联正在全力打造超大规模数据中心集群,从Hyperscale 1.0向Hyperscale 2.0升级。

快手:液冷基础设施的“痛点攻坚”与未来布局

快手IDC系统架构师杨琪,从IDC服务视角出发,分享了智算中心液冷的痛点和挑战,针对高密算力下液冷的“快交付、高可靠”需求,提出了快手的解决方案。

  1. 液冷冷源与室内侧产品化:将传统分散的干冷器、水泵、真空脱气设备等集成化,形成 “集成干冷器”,实现货到现场快速部署;室内侧采用 “侧走管+分集水器” 设计(替代下走管/上走管),将分集水器布置于机柜列首/列尾,通过顶部软管连接到液冷机柜,提升交付效率。
  2. 风液同源架构:针对 IDC 建设周期(1-2年)与服务器交付周期(3个月)的时间差,设计风液同源架构,室内包间采用 “白空间” 等形式,可根据实际需求灵活调配风冷/液冷比例,解决“风液比不确定”的规划难题。
  3. 连接器与软管的长期可靠性:针对 IDC(10-15年寿命)与服务器(3-5年寿命)的周期错配,推动UQD标准连接器的互插互认,同时探索整机柜级自锁球阀的小型化(当前 DN25/DN50,未来需支持DN75/DN100);针对EPDM软管8年寿命的局限,联合厂商研发涂层改良或新型材质,避免胶皮脱落堵塞冷板。
  4. 未来高密散热布局:预判单机柜功率将达数百千瓦甚至兆瓦级,研发 “双水温冷机”(可输出风冷/液冷两种水温)与 “风液融合空调”(同时出冷风/冷水),并探索相变冷板与低压冷媒技术,应对芯片功率持续攀升的散热需求。

整机创新:整合全链路能力,定义GW级智算中心形态

整机厂商是GW级智算中心的“总装厂”,需整合计算、供电、制冷、网络等全链路技术,为用户提供一体化解决方案。浪潮信息开放计算产品线总经理Bean Zhang,以《开放计算加速GW AIDC基础设施创新发展》为主题,分享了浪潮信息在超节点服务器、液冷技术及开放生态构建上的实践,推动GW级智算中心从“概念”走向“落地”。

  1. 兆瓦级泵驱两相液冷整机柜:针对当前单AI芯片功率突破1千瓦、2028年将达3千瓦的趋势,推出两相液冷方案,通过微纳米尺度仿生构形提升相变冷板换热能力(单芯片散热突破3000W,热流密度达250W/cm²),搭配绿色低压冷媒(运行压强<1MPa),并通过瞬态热 - 压 - 流协同控制,解决200+AI芯片负载跳变时的流量分配偏差(<10%)与温度偏差(<2℃)问题。
  2. SD200超节点服务器:面向万亿参数大模型需求,构建低时延内存语义通信架构,通过自研Open Fabric Switch实现64路本土GPU高速互联,结合远端GPU虚拟映射技术,将显存扩展至4TB(内存64TB),支持4万亿参数模型训练或4大万亿参数国产开源大模型并行运行。同时开发Smart Fabric Manager与PD分离的开放推理框架,实现64路全域最佳路由创建与动态请求分发,适配多元AI芯片。
  3. GW-Scale Open AIDC功能模块定义:联合OCP中国社区,划分GW-Scale Open AIDC的核心功能模块——核心层(超节点柜体、制冷/供电、交换节点、算力调度软件)、集群层(集群供电/制冷、独立CDU)、数据中心层(冷源选择、认证运维)、空间规划层,推动国产产业链协同,加速中国方案融入全球开放计算生态。

零部件创新:夯实底层基础,支撑整机架构迭代

零部件是GW级智算中心的“细胞”,其性能与可靠性直接决定整机表现。立讯技术、江苏安澜万锦、亿纬锂能等企业在高速互连、传输线缆、备用电源等关键零部件领域深耕,为开放智算提供“硬核支撑”。

立讯技术:超节点机柜互连的 “铜光协同” 方案

立讯技术产品管理部高级经理金龙聚焦超节点“高速、高密、大规模”的互连需求,提出铜缆与光互联协同发展的路径。

  1. 主流超节点互连架构适配:针对NV的层级架构、谷歌的环形架构、TPU的矩形架构,提供短距铜互联(设备内部1米内, 设备间10米内)与长距光互联(超10 米)方案。例如,在ODCC ETH-X超节点中,支持服务器节点内4颗GPU的PSE铜连接,交换节点内通过Near Chip到IO的铜缆连接(替代PCB走线,降低损耗)。
  2. 高密度连接器与线缆技术:针对超节点高密需求,开发专门的连接器与多级导向结构,确保盲插可靠性;通过“近芯片铜连接”技术,减少PCB 链路损耗,降低设备功耗。
  3. 未来光互联布局:预判超128卡互联需光方案,研发NPO(Near Package Optics)方案,通过OE光模块、外置光源与保偏光纤跳线,实现光与铜的兼容(同一连接器支持光 / 铜切换),同时布局CPO(共封装光学)交换机的一站式解决方案,平衡成本与性能。

安澜万锦:高速传输线缆的“速率突破”

江苏安澜万锦技术总监张军萍在《高速互连传输线缆在GW级智算中心的应用和发展趋势》中,分享了线缆技术从112G到224G,再到448G的迭代路径。

  1. 112G/224G 线缆量产与结构优化:2023年112G线缆(FEP+FEP双层绝缘、FEP+EPTFE结构)实现大规模交付,2024年224G线缆(Foam FEP+PE发泡绝缘、双芯共挤结构)占比达60%(2025年将达70%)。通过“双层绝缘替代单层,”“实心绝缘改发泡”,“双芯共挤替代单芯挤出,”“铜箔/铜铝复合屏蔽替代铝箔”,提升信号衰减性能与抗干扰能力,224G线缆在53GHz频率下衰减性能满足NV等海外客户需求。
  2. 448G线缆研发方向:针对单通道 448G(Pen4/Pen6/Pen8 未定)需求,从三方面突破——材料端优化镀银铜表面粗糙度(降低衰减)、研发石墨烯铜、探索低Dk/Df 绝缘材料(如FEP Df从0.0004降至 更低);工艺端研发更多挤出技术如双芯共挤发泡技术;测试端突破112GHz 带宽测试(国产设备已落地,夹具需从67GHz升级至120GHz),目前已推出448G线缆样品,衰减曲线平滑。

亿纬锂能:BBU备用电池的“致密能源”解决方案

亿纬锂能产品总监贡昀在《AI时代呼唤致密能源-GW级智算中心亿纬锂能BBU电池全面解决方案》中,针对GW级智算中心的“毫秒级响应”备电需求,提出高安全、高功率、长寿命的BBU(电池备份单元)方案。

  1. 高功率电芯技术:从材料端(功能化活化材料、低表面电阻隔膜)、电极端(高效导电网络、低内阻粘结剂)、结构端(全极耳替代多极耳)三端发力,将单电芯放电倍率从10C提升至100C,21700-50UL电芯单电芯放电功率达200W,100克电芯可实现20千瓦60秒备电。
  2. 全链路安全防护:电芯级通过超导电网络、加厚复合隔膜提升热稳定性;模组级采用电池间隔热设计,杜绝热扩散;电柜级实施多重探测与联动防护;系统级实现全生命周期远程监控与故障推送,做到“零火灾、零蔓延、零中断”,通过UL9540A电池包级测试。
  3. 多场景适配与标准化:提供三元锂、磷酸铁锂、磷酸锰铁锂等多体系电芯,覆盖圆柱、方形等尺寸,支持并联/串联;推出3.3千瓦(18650-20P)、10千瓦(25UL)、20千瓦(21700-50UL)等多档位BBU产品,适配边缘计算到超算场景;同时推动备电电池接口标准化,“让备电像搭积木一样简单”,融入开放计算生态。

从下一代开放智算中心看开放计算的未来:协同、标准、生态

从用户侧的场景创新,到整机侧的系统整合,再到零部件侧的底层突破,GW级开放智算中心的建设正在形成“需求牵引 - 技术突破 - 生态协同”的闭环。OCP中国社区GW级工作组的成立,标志着中国企业正从“跟随者”转变为“引领者”,在清洁能源(绿电占比超50%)、制造业场景(城市智能体、工业 AI)等领域的优势,将推动“中国方案”融入全球开放计算生态。

未来,开放计算的发展将聚焦三大方向:一是协同创新,政产学研用联动,突破基础材料与核心器件瓶颈;二是标准统一,在供电架构、液冷接口、备电协议等领域建立统一标准,降低产业链成本;三是生态共建,吸引更多高校、科研机构与企业参与,形成“开源开放、共享共赢”的格局。

GW级智算中心将成为数字经济的“发电厂”,为AI大模型、智能体、多模态应用提供源源不断的算力支撑,而中国在这场变革中,正以开放的姿态,定义下一代智算基础设施的未来。

Logo

更多推荐