logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AI网络时代,构建200G/400G RoCE混合组网

近日,中国移动江苏有限公司发布《中国移动智算中心(南京)2023年智算算力项目算力设备采购项目》招标公告,招标项目内容显示,需采购30台人工智能通用计算设备(训练型),预估金额10890万元(人民币/含税),单价限价363万元/台。

文章图片
#人工智能#算力
星融元P4交换机:在全球芯片短缺中,为您的网络可编程之路保驾护航

P4语言的编译器设计体现了模块化思想,各个模块通过标准化配置文件进行信息交换。这种设计赋予了P4语言三大关键特性:协议无关性、目标无关性和可重构性。它允许用户自定义数据平面的报文处理逻辑,提高了数据平面的可编程性,使得网络设备能够灵活地支持各种新兴的协议和功能。

文章图片
#网络
一文揭秘AI智算中心网络流量 – 数据存储篇

我们大致可将AI智算中心内部的数据存储系统进行简单的层次分类,主要包括GPU内存、存储网和存储设备。一般来说,在存储层次结构中位置越高,其存储性能(尤其是延迟)就越快。因为本文的定位在分析网络流量,我们将聚焦于智算中心内部GPU服务器内存与远端存储服务器之间传输的数据。

文章图片
#人工智能
大型语言模型(LLMs)是怎样“学习”的?一封给网络工程师的大模型指南

数字时代,人工智能(AI)及其相关技术正日益成为许多领域的热门话题。其中,生成式人工智能(Gen AI)和大型语言模型(LLMs)引起了广泛的兴趣和讨论。然而,尽管这些术语在科技界和专业领域中频繁出现,网络工程师对其的理解却不多。

文章图片
#语言模型#学习#人工智能
一文揭秘AI智算中心网络流量 – 大模型训练篇

AI模型的规模巨大并持续快速增长,不仅将带来数据中心流量的指数型增长,独特的流量特征也将为数据中心网络带来崭新的需求。深入分析AI大模型在训练、推理和数据存储流量将帮助数据中心建设者有的放矢,用更低的成本,更快的速度、更健壮的网络为用户提供更好的服务。

文章图片
#人工智能#网络
IPT技术详解:如何实现纳秒级精度路径性能测量

IPT(带内路径遥测)通过将网络测量任务内嵌至数据报文本身,让业务流在转发过程中自动收集并携带每一跳设备的实时状态信息(如时延、队列深度)。在超大规模AI训练集群中,IPT能精准定位导致All-Reduce同步延迟的网络瓶颈,极大缩短故障排查时间,保障万卡集群算力高效稳定输出。

文章图片
万亿参数大模型网络瓶颈突破:突破90%网络利用率的技术实践

近年来,随着AI大模型训练(如GPT-4、Gemini)的爆发式增长,数据中心网络的流量压力急剧上升。单次训练任务可能涉及数千张GPU卡协同工作,生成集合通信流量(All-Reduce、All-to-All等),网络面临高并发、低延迟、无损传输的严苛需求。然而,传统以太网的网络利用率长期徘徊在35%~40%,成为制约AI算力释放的关键瓶颈。

文章图片
#网络#负载均衡#人工智能
从30%丢包到零延迟:DeepSeek大规模集群通信优化的关键技术解析

近年来,生成式人工智能(Generative AI)的突破性发展,将大语言模型(LLM)和深度学习系统的算力需求推向了前所未有的量级。

文章图片
#人工智能#网络#服务器 +1
AI驱动网络范式革新:Smart Switch与智能路由的协同进化

在GPT-4o参数规模突破10万亿、千卡集群成为AI训练标配的今天,全球互联网正经历着前所未有的流量风暴。当单次模型训练可产生相当于YouTube全球三日流量的数据洪流,当分布式推理系统要求微秒级延迟保障,传统网络架构的流量调度机制正面临系统性崩塌。路由技术如何破局AI流量洪峰?

文章图片
#人工智能#网络
AI网络时代,构建200G/400G RoCE混合组网

近日,中国移动江苏有限公司发布《中国移动智算中心(南京)2023年智算算力项目算力设备采购项目》招标公告,招标项目内容显示,需采购30台人工智能通用计算设备(训练型),预估金额10890万元(人民币/含税),单价限价363万元/台。

文章图片
#人工智能#算力
    共 27 条
  • 1
  • 2
  • 3
  • 请选择