
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
《高性能网络(InfiniBand/RoCE)快速学习笔记》摘要 核心问题 传统TCP/IP网络无法满足AI训练(如AllReduce)的极端需求,主要痛点在于: 高CPU开销:内核深度参与导致频繁上下文切换、内存拷贝和中断处理,使CPU成为带宽瓶颈。 不可预测延迟:协议栈处理、拷贝等环节累积数十微秒延迟,拖慢GPU集群同步效率。 RDMA革命性突破 通过内核旁路和零拷贝机制实现: 内核旁路:应用
摘要 本文是Llama-factory教程最后一章,针对大模型微调中的三大核心问题提供了解决方案: 显存OOM问题:提出六步优先级排查法,依次推荐使用QLoRA量化训练、调整截断长度、降低批处理大小、梯度累积、开启FlashAttention以及DeepSpeed ZeRO+CPU Offload等技术手段。 训练速度慢问题:通过nvidia-smi诊断瓶颈,针对数据I/O、计算效率和批处理优化分
vLLM 是一款由加州大学伯克利分校开发的高效大型语言模型推理框架,通过创新的PagedAttention算法显著提升内存利用率,特别适合高并发在线服务和大规模批处理场景。本文详细介绍了vLLM的核心优势、适用场景及与其他框架的对比差异,并提供了环境配置指南,包括硬件要求、软件版本组合建议以及安装验证步骤。通过最小可行性示例演示了基础推理功能,帮助用户快速搭建并验证vLLM运行环境。
一个设计良好的架构能够支撑未来数年的业务发展和技术演进,而一个仓促的、未经充分论证的架构则可能在集群规模扩大或业务场景复杂化后,导致无尽的重构和运维噩梦。在 AI 和高性能计算领域,不同的业务场景对算力的“画像”要求迥异,这直接决定了我们集群的物理和逻辑设计。对于任何生产级别的 Kubernetes 集群,控制面的高可用都是不容商讨的底线。这个练习的价值在于,它将抽象的架构原则与你手中实实在在的硬
Llama-factory 学习摘要 Llama-factory是一个功能强大的大语言模型微调框架,支持100+主流开源模型。其核心优势在于:通过简洁的Web UI和命令行工具,大幅降低LLM微调门槛。本笔记重点介绍了环境搭建的关键步骤: 环境配置:使用Conda创建隔离环境(python=3.10),严格匹配PyTorch与CUDA版本 依赖安装:重点解决bitsandbytes和flash-a
第六章摘要:性能调优的关键框架与实践 性能调优需遵循"调优金字塔"模型: 操作系统层是基础,需优化CPU亲和性与中断绑定(解决NUMA跨节点访问问题)、关闭irqbalance守护进程、禁用透明大页(THP)以避免延迟抖动; 网卡驱动层需匹配硬件特性; 上层应用层需适配底层优化。本章重点讲解OS层调优,通过NUMA感知的中断绑定脚本和THP禁用等手段,为RDMA创造低干扰、高性
通过本章的学习,你已经掌握了从 Web UI 到 CLI 的平滑过渡,并具备了在专业服务器环境下,利用多 GPU 和 DeepSpeed 进行大规模模型微调的能力。传统的“数据并行”模式下,每张卡都保存一份完整的模型权重、梯度和优化器状态,这导致了大量的冗余。(或 ZeRO-3,因为 Llama-factory 的 ZeRO-3 配置通常也开启了 offload,效果更强)。的深度集成,极大地简化
本文介绍了监督微调(SFT)和奖励建模(RM)两种核心微调技术。SFT通过让模型模仿"问题-标准答案"范例,学习特定任务的响应方式,适用于问答、客服、代码生成等场景。文章详细演示了使用CLI和WebUI进行SQL生成模型微调的实战流程,包括数据准备、参数配置和训练脚本编写。针对训练中常见的Loss不下降和显存溢出问题,提供了具体排查策略和解决方案,如调整学习率、检查数据质量、降
本章详细介绍了搭建高性能网络环境的关键步骤,以Mellanox/NVIDIA网卡为例。首先强调选择官方MLNX_OFED驱动的重要性,详细指导驱动下载、安装与验证流程。随后讲解如何检查核心服务状态,使用ibstat等工具验证RDMA功能。针对InfiniBand网络,重点说明子网管理器OpenSM的配置与启动,这是IB网络正常运行的核心组件。通过本章实践,读者将获得一个基础链路畅通、可供上层应用使
本文聚焦高性能AI训练中的网络性能调优与协议优化。首先探讨RDMA协议调优,重点分析RoCEv2中ECN阈值的精细化控制策略,提出通过监控PFC/ECN计数器迭代优化阈值的方法。其次对比InfiniBand中可靠连接与不可靠数据报模式的适用场景,揭示NCCL在大规模集群中的自动选择机制。针对K8s环境,文章剖析容器化部署RDMA的挑战,详述设备文件挂载方法和CNI网络冲突解决方案,强调RDMA设备







