快撑死的鱼个人主页

@qq_38334677

快撑死的鱼

2022-12-06 14:28:21 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

（大模型训练）高性能网络(InfiniBand/RoCE) 详细学习笔记：第一章：导论 - 为什么标准以太网（TCP/IP）“喂不饱” GPU？

《高性能网络(InfiniBand/RoCE)快速学习笔记》摘要核心问题传统TCP/IP网络无法满足AI训练（如AllReduce）的极端需求，主要痛点在于：高CPU开销：内核深度参与导致频繁上下文切换、内存拷贝和中断处理，使CPU成为带宽瓶颈。不可预测延迟：协议栈处理、拷贝等环节累积数十微秒延迟，拖慢GPU集群同步效率。 RDMA革命性突破通过内核旁路和零拷贝机制实现：内核旁路：应用

#网络 #学习

Llama-factory 详细学习笔记：第八章：常见疑难杂症 (Troubleshooting) 与进阶技巧

摘要本文是Llama-factory教程最后一章，针对大模型微调中的三大核心问题提供了解决方案：显存OOM问题：提出六步优先级排查法，依次推荐使用QLoRA量化训练、调整截断长度、降低批处理大小、梯度累积、开启FlashAttention以及DeepSpeed ZeRO+CPU Offload等技术手段。训练速度慢问题：通过nvidia-smi诊断瓶颈，针对数据I/O、计算效率和批处理优化分

#学习

VLLM 详细学习笔记第一章：开篇速览与环境就绪

vLLM 是一款由加州大学伯克利分校开发的高效大型语言模型推理框架，通过创新的PagedAttention算法显著提升内存利用率，特别适合高并发在线服务和大规模批处理场景。本文详细介绍了vLLM的核心优势、适用场景及与其他框架的对比差异，并提供了环境配置指南，包括硬件要求、软件版本组合建议以及安装验证步骤。通过最小可行性示例演示了基础推理功能，帮助用户快速搭建并验证vLLM运行环境。

#学习

K8s集群学习笔记第一章目标与总体架构：为高性能算力场景设计 K8s 集群

一个设计良好的架构能够支撑未来数年的业务发展和技术演进，而一个仓促的、未经充分论证的架构则可能在集群规模扩大或业务场景复杂化后，导致无尽的重构和运维噩梦。在 AI 和高性能计算领域，不同的业务场景对算力的“画像”要求迥异，这直接决定了我们集群的物理和逻辑设计。对于任何生产级别的 Kubernetes 集群，控制面的高可用都是不容商讨的底线。这个练习的价值在于，它将抽象的架构原则与你手中实实在在的硬

#kubernetes #学习

Llama-factory 详细学习笔记：第一章：环境搭建与“Hello World” (入门与排错)

Llama-factory 学习摘要 Llama-factory是一个功能强大的大语言模型微调框架，支持100+主流开源模型。其核心优势在于：通过简洁的Web UI和命令行工具，大幅降低LLM微调门槛。本笔记重点介绍了环境搭建的关键步骤：环境配置：使用Conda创建隔离环境(python=3.10)，严格匹配PyTorch与CUDA版本依赖安装：重点解决bitsandbytes和flash-a

#学习 #算法

（大模型训练）高性能网络(InfiniBand/RoCE) 详细学习笔记第六章：【重难点】性能调优（上）：系统与网卡参数

第六章摘要：性能调优的关键框架与实践性能调优需遵循"调优金字塔"模型：操作系统层是基础，需优化CPU亲和性与中断绑定（解决NUMA跨节点访问问题）、关闭irqbalance守护进程、禁用透明大页(THP)以避免延迟抖动；网卡驱动层需匹配硬件特性；上层应用层需适配底层优化。本章重点讲解OS层调优，通过NUMA感知的中断绑定脚本和THP禁用等手段，为RDMA创造低干扰、高性

#网络 #学习

Llama-factory 详细学习笔记：第四章：命令行 (CLI) 训练实战

通过本章的学习，你已经掌握了从 Web UI 到 CLI 的平滑过渡，并具备了在专业服务器环境下，利用多 GPU 和 DeepSpeed 进行大规模模型微调的能力。传统的“数据并行”模式下，每张卡都保存一份完整的模型权重、梯度和优化器状态，这导致了大量的冗余。（或 ZeRO-3，因为 Llama-factory 的 ZeRO-3 配置通常也开启了 offload，效果更强）。的深度集成，极大地简化

#学习

Llama-factory 详细学习笔记：第五章：SFT 与 RM 微调实践

本文介绍了监督微调(SFT)和奖励建模(RM)两种核心微调技术。SFT通过让模型模仿"问题-标准答案"范例，学习特定任务的响应方式，适用于问答、客服、代码生成等场景。文章详细演示了使用CLI和WebUI进行SQL生成模型微调的实战流程，包括数据准备、参数配置和训练脚本编写。针对训练中常见的Loss不下降和显存溢出问题，提供了具体排查策略和解决方案，如调整学习率、检查数据质量、降

#学习

（大模型训练）高性能网络(InfiniBand/RoCE) 详细学习笔记第三章：【实践】环境搭建：驱动与基础组件（以 Mellanox/NVIDIA 为例）

本章详细介绍了搭建高性能网络环境的关键步骤，以Mellanox/NVIDIA网卡为例。首先强调选择官方MLNX_OFED驱动的重要性，详细指导驱动下载、安装与验证流程。随后讲解如何检查核心服务状态，使用ibstat等工具验证RDMA功能。针对InfiniBand网络，重点说明子网管理器OpenSM的配置与启动，这是IB网络正常运行的核心组件。通过本章实践，读者将获得一个基础链路畅通、可供上层应用使

#网络 #学习

（大模型训练）高性能网络(InfiniBand/RoCE) 详细学习笔记第七章：性能调优（下）：协议与上层应用（K8s/PyTorch）

本文聚焦高性能AI训练中的网络性能调优与协议优化。首先探讨RDMA协议调优，重点分析RoCEv2中ECN阈值的精细化控制策略，提出通过监控PFC/ECN计数器迭代优化阈值的方法。其次对比InfiniBand中可靠连接与不可靠数据报模式的适用场景，揭示NCCL在大规模集群中的自动选择机制。针对K8s环境，文章剖析容器化部署RDMA的挑战，详述设备文件挂载方法和CNI网络冲突解决方案，强调RDMA设备

#网络 #学习

共 138 条

请选择