
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
近日,中国移动江苏有限公司发布《中国移动智算中心(南京)2023年智算算力项目算力设备采购项目》招标公告,招标项目内容显示,需采购30台人工智能通用计算设备(训练型),预估金额10890万元(人民币/含税),单价限价363万元/台。

数据中心带外管理网传统需手动配置静态IP与VLAN,现可通过基于SONiC的交换机运行DHCP与TFTP服务,实现设备“即插即用”零配置上线。方案支持按物理位置自动分配IP,并具备双活DHCP服务器保障高可靠性。

焱融科技和星融元,分别作为专业、领先的 AI 存储服务提供商和开放网络解决方案提供商,致力于提供高带宽、低延时、高可靠的数据存储与传输解决方案,为 AI 和 HPC 等高性能工作负载提供坚实支撑,保障先进算力的高效释放,加速企业创新成果落地。,面向 AI/ML 智算中心和云计算数据中心提供一站式全开放网络解决方案,以其构建的超低时延无损以太网,通过 RDMA 技术在以太网上的实现,帮助高性能计算方

多租户网络(Multi-Tenant Network)是一种在云计算环境中实现网络资源虚拟化的关键技术,其核心目标是通过共享底层物理网络基础设施,为多个独立租户(用户、企业或部门)提供逻辑隔离的专属网络环境,同时还要满足动态性、安全性和服务质量需求。

云计算掀起数据中心网络的变革热潮,而随着中大型园区网络规模的进一步扩增,传统园区网络面临着运维复杂、扩展性差、架构封闭等诸多挑战,借鉴云数据中心网络的发展经验,星融元Asterfusion创新性地提出了新一代精简高效的云化园区网络架构。

星融元交换机使用RoCEv2,降低传输协议时延,采用的是超低时延交换芯片,降低网络转发时延。我们曾在HPC 场景下,用星融元的CX-N与IB 交换机做过实际对比,数据相差无几。

算力即计算能力(Computing Power),狭义上指对数字问题的运算能力,而广义上指对输入信息处理后实现结果输出的一种能力。虽然处理的内容不同,但处理过程的能力都可抽象为算力。比如人类大脑、手机以及各类服务器对接收到的信息处理实际都属于算力的应用。图1:信息处理过程随着信息技术的不断发展,《中国算力白皮书(2022)》中将算力明确定义为数据中心的服务器通过对数据进行处理后实现结果输出的一种能

目前最常见的AI算力中心部署的GPU集群大小为 2048、1024、512 和 256,且部署成本随 GPU 数量线性增长。本文将以相对折中的1024 GPU卡(H100)的规模为例展开分析。

当下大规模AI训练成为常态,RoCEv2凭借高性能、低延迟与低CPU开销的优势,已成为构建智算中心的优先选择。然而,RoCE对网络无损的严苛要求,配置不当会放大拥塞,如 PFC、ECN、Buffer滞留等引发的高延迟、性能下降等,而这些问题统一表现为“GPU通信异常”。而逐项排查的操作相当繁琐。

近年来,千亿至万亿参数规模的大语言模型(LLM)训练已成为人工智能领域的核心战场。随着模型复杂度的指数级增长, 并行计算与网络拓扑的协同设计逐渐成为突破算力瓶颈的关键挑战。在,全局梯度同步(All-Reduce)对网络带宽提出严苛要求。早期的CLOS架构凭借无阻塞特性支撑了大规模集群的扩展,但其高昂的硬件成本与能效问题催生了Dragonfly等低直径拓扑的兴起,通过自适应路由减少跨节点跳数。与此同








