A零KK 个人主页

@2601_95651806

A零KK

2026-03-27 09:47:20 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

004、网络性能关键指标：带宽、延迟、吞吐量与拥塞

摘要：本文深入分析网络性能的四个核心指标（带宽、延迟、吞吐量、拥塞）的实际含义与相互关系。通过真实案例揭示高带宽利用率不等于高效传输的原因，指出拥塞控制、协议开销和硬件配置对性能的影响。提供详细的诊断命令和调优建议，强调端到端优化的重要性，并指出AI训练中网络可能并非唯一瓶颈。最后给出参数调优示例和排查顺序建议，帮助读者全面理解网络性能优化。

#网络

016、前沿展望：异构网络、在网计算与AI for Network

本文探讨了AI集群中网络优化的关键问题与实践经验。作者通过实际案例揭示，现代AI集群网络已不再是透明管道，而是需要精细化管理的异构系统。文章提出三大方向：1)异构网络需按业务特性分流，避免路由冲突；2)在网计算可显著提升性能，但需权衡计算与数据传输成本；3)AI可用于网络自优化，但需谨慎实施。作者建议从物理隔离、监控offload和辅助分析入手，强调扎实的底层监控是智能网络的基础。网络正演变为分布

#网络 #人工智能

013、RDMA技术精讲：原理、编程模型与性能调优

RDMA网卡（通常叫HCA，Host Channel Adapter）自己实现了传输层协议（RoCEv2或InfiniBand），能处理数据分段、ACK、重传等。有一次升级驱动后，Read操作偶尔返回旧数据，最后发现是HCA缓存一致性问题，打了补丁才解决。RDMA的编程接口叫Verbs，分两层：基础Verbs（用户态直接调用）和高效Verbs（更底层，性能更好）。上个月在调试一个分布式训练任务时，

#网络

012、性能剖析工具：Perf、Nsight Systems与网络Telemetry

本文分享了排查AI训练集群网络抖动问题的实用工具链：1）Perf工具深入分析Linux内核网络协议栈，捕获TCP重传等关键事件；2）Nsight Systems工具实现GPU、CPU和网络活动的协同观测，识别NCCL操作异常；3）网络交换机Telemetry提供流量微观视角，揭示ECN标记等硬件级线索。作者通过真实案例演示了三工具联动的排查流程，并给出"从宏观到微观"、&quo

#网络 #php #开发语言

009、负载均衡策略：ECMP、CONGA与全局感知调度

本文探讨了AI训练集群中的负载均衡问题。ECMP哈希算法易导致流量倾斜，尤其在大象流场景下性能下降。CONGA方案通过动态感知链路拥塞实现智能选路，可提升20%吞吐但依赖可编程交换机。更先进的全局感知调度需结合网络控制器和任务调度器，适合超大规模集群。实践建议：先评估实际需求，强化监控能力，注意保序问题，并在测试环境充分验证。不同规模集群适用不同方案，需结合硬件能力和运维复杂度综合考虑。负载均衡需

#负载均衡 #运维

007、软件栈基石：通信库MPI、NCCL与UCX深度解析

从一次诡异的训练卡顿说起上个月调一个八卡A100的集群，训练脚本跑起来后，吞吐量只有理论值的一半。nvidia-smi显示GPU利用率像心电图一样上蹿下跳，netstat看网络流量也是忽高忽低。折腾了两天，最后发现是NCCL的通信模式没选对——默认的P2P模式在跨NUMA节点的机器上表现极差，换成NVLinkInfiniBand混合拓扑后性能直接翻倍。这个坑让我重新审视了AI集群里的通信库。现在大

#网络

007、软件栈基石：通信库MPI、NCCL与UCX深度解析

#网络

006、硬件视角：DPU、智能网卡与可编程交换芯片

《硬件卸载技术演进：从智能网卡到DPU的实战思考》摘要本文从AI集群网络性能问题切入，系统分析了传统网卡瓶颈及新一代硬件卸载技术。传统网卡架构导致CPU大量资源消耗在数据搬运上，而智能网卡通过集成ARM核和硬件加速引擎，可将TLS解密等任务卸载，实现CPU负载从80%降至12%。DPU进一步扩展功能至存储虚拟化、安全策略等领域，在RoCEv2场景下显著提升吞吐和降低延迟。可编程交换芯片则支持自定

#网络 #运维

005、网络通信模式分析：All-Reduce、All-to-All与参数服务器

《分布式训练通信模式实战解析》摘要：本文从实际案例出发，剖析三种核心通信模式的适用场景与陷阱。All-Reduce适合均匀同步但存在带宽瓶颈，All-to-All在MoE等特定场景不可替代但复杂度高，参数服务器在异构/稀疏场景优势明显。实践表明，混合模式（如Transformer层用All-Reduce+稀疏参数用PS）往往最优。关键经验包括：通过nsys分析时间线、小规模测试推算扩展性、匹配物理

#服务器 #运维

004、网络性能关键指标：带宽、延迟、吞吐量与拥塞

#网络

共 11 条

请选择