
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
《高性能网络(InfiniBand/RoCE)快速学习笔记》摘要 核心问题 传统TCP/IP网络无法满足AI训练(如AllReduce)的极端需求,主要痛点在于: 高CPU开销:内核深度参与导致频繁上下文切换、内存拷贝和中断处理,使CPU成为带宽瓶颈。 不可预测延迟:协议栈处理、拷贝等环节累积数十微秒延迟,拖慢GPU集群同步效率。 RDMA革命性突破 通过内核旁路和零拷贝机制实现: 内核旁路:应用
摘要 本文是Llama-factory教程最后一章,针对大模型微调中的三大核心问题提供了解决方案: 显存OOM问题:提出六步优先级排查法,依次推荐使用QLoRA量化训练、调整截断长度、降低批处理大小、梯度累积、开启FlashAttention以及DeepSpeed ZeRO+CPU Offload等技术手段。 训练速度慢问题:通过nvidia-smi诊断瓶颈,针对数据I/O、计算效率和批处理优化分
vLLM 是一款由加州大学伯克利分校开发的高效大型语言模型推理框架,通过创新的PagedAttention算法显著提升内存利用率,特别适合高并发在线服务和大规模批处理场景。本文详细介绍了vLLM的核心优势、适用场景及与其他框架的对比差异,并提供了环境配置指南,包括硬件要求、软件版本组合建议以及安装验证步骤。通过最小可行性示例演示了基础推理功能,帮助用户快速搭建并验证vLLM运行环境。
一个设计良好的架构能够支撑未来数年的业务发展和技术演进,而一个仓促的、未经充分论证的架构则可能在集群规模扩大或业务场景复杂化后,导致无尽的重构和运维噩梦。在 AI 和高性能计算领域,不同的业务场景对算力的“画像”要求迥异,这直接决定了我们集群的物理和逻辑设计。对于任何生产级别的 Kubernetes 集群,控制面的高可用都是不容商讨的底线。这个练习的价值在于,它将抽象的架构原则与你手中实实在在的硬
Llama-factory 学习摘要 Llama-factory是一个功能强大的大语言模型微调框架,支持100+主流开源模型。其核心优势在于:通过简洁的Web UI和命令行工具,大幅降低LLM微调门槛。本笔记重点介绍了环境搭建的关键步骤: 环境配置:使用Conda创建隔离环境(python=3.10),严格匹配PyTorch与CUDA版本 依赖安装:重点解决bitsandbytes和flash-a
第六章摘要:性能调优的关键框架与实践 性能调优需遵循"调优金字塔"模型: 操作系统层是基础,需优化CPU亲和性与中断绑定(解决NUMA跨节点访问问题)、关闭irqbalance守护进程、禁用透明大页(THP)以避免延迟抖动; 网卡驱动层需匹配硬件特性; 上层应用层需适配底层优化。本章重点讲解OS层调优,通过NUMA感知的中断绑定脚本和THP禁用等手段,为RDMA创造低干扰、高性
通过本章的学习,你已经掌握了从 Web UI 到 CLI 的平滑过渡,并具备了在专业服务器环境下,利用多 GPU 和 DeepSpeed 进行大规模模型微调的能力。传统的“数据并行”模式下,每张卡都保存一份完整的模型权重、梯度和优化器状态,这导致了大量的冗余。(或 ZeRO-3,因为 Llama-factory 的 ZeRO-3 配置通常也开启了 offload,效果更强)。的深度集成,极大地简化
本文聚焦高性能AI训练中的网络性能调优与协议优化。首先探讨RDMA协议调优,重点分析RoCEv2中ECN阈值的精细化控制策略,提出通过监控PFC/ECN计数器迭代优化阈值的方法。其次对比InfiniBand中可靠连接与不可靠数据报模式的适用场景,揭示NCCL在大规模集群中的自动选择机制。针对K8s环境,文章剖析容器化部署RDMA的挑战,详述设备文件挂载方法和CNI网络冲突解决方案,强调RDMA设备
摘要 vLLM性能调优是一个识别和处理Prefill与Decode两阶段瓶颈的过程。Prefill阶段计算密集,影响首Token延迟(TTFT);Decode阶段内存带宽密集,影响生成速度(TPOT)。关键参数包括:gpu-memory-utilization控制显存使用,max-num-seqs限制并发请求数,max-num-batched-tokens优化长请求处理。根据不同场景,可调整参数组
摘要 本章深入探讨了vLLM在实际生产环境中的模型与权重管理策略。首先介绍了vLLM支持的广泛模型架构,包括Llama、Mixtral、Mistral、Qwen等主流系列,强调了定期查阅官方文档以获取最新支持列表的重要性。重点分析了权重格式(SafeTensors与PyTorch Binaries)的安全性和性能差异,建议优先使用更安全的SafeTensors格式。同时警示了trust_remot







