
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要: 本文以构建高效AI算力调度平台为主线,系统梳理了K8s调度、GPU切分、RDMA、大模型并行等关键技术如何协同解决业务痛点。平台需实现三大目标:1)通过DevicePlugin、HAMi、MIG等技术细粒度切分GPU资源,提升利用率至80%以上;2)利用RDMA、NVLink、RingAllReduce等优化跨卡通信,突破"通信墙";3)基于Operator模式构建集群

摘要:本文针对希望从PyTorch调参进阶到编写CUDA算子和部署模型的工程师,提供了一条基于RTX4090D显卡的完整实践路径。文章首先构建CUDA编程的核心心智模型,强调GPU作为吞吐优化设备的特性,并通过向量加法示例展示CUDA程序的完整生命周期。随后对比Triton、PyTorch扩展和纯NVCC三种工程化路径的适用场景,推荐Triton作为大多数场景的起点。核心部分以Swin-Tiny模

《大模型MLOps实战:从代码到上线的六场硬仗》 本文聚焦大模型生产部署中的核心挑战,通过实战经验揭示MLOps与传统软件工程的本质差异。关键在于处理"流量的不可预测性"与"硬件物理极限"的冲突。文中系统梳理了六大关键战役: 环境一致性:必须分离训练与推理镜像,通过ONNX转换、多阶段构建将镜像从10GB压缩到1GB以下 版本控制:采用Git+DVC/MLf

本文探讨了机器人与自动驾驶领域数据采集中的存储优化问题。针对MCAP文件体积过大的痛点,提出使用ZSTD压缩算法实现3:1压缩比的解决方案,并通过Python脚本示范具体操作流程。文章分析了MCAP相比传统ROSBag格式的五大优势:更优的传感器数据处理能力、高效时间索引、独立可视化支持、云端仿真友好性和ETL抽取效率。同时强调不能直接将MCAP用于模型训练,建议采用"车端MCAP录制-

《大模型MLOps实战:从代码到上线的六场硬仗》 本文聚焦大模型生产部署中的核心挑战,通过实战经验揭示MLOps与传统软件工程的本质差异。关键在于处理"流量的不可预测性"与"硬件物理极限"的冲突。文中系统梳理了六大关键战役: 环境一致性:必须分离训练与推理镜像,通过ONNX转换、多阶段构建将镜像从10GB压缩到1GB以下 版本控制:采用Git+DVC/MLf

本文探讨了分布式大模型训练中的通信瓶颈问题,提出梯度压缩和异步更新的组合优化方案。通过Top-k梯度稀疏化(保留1%-5%的重要梯度)、INT8量化和误差补偿技术,将通信量缩减至原始数据的0.25%。结合SSP异步协议(允许有限步长差异)实现集群利用率超90%,既避免同步等待又防止梯度过期。文章强调工程实现中的关键细节:Warm-up阶段、动量计算位置和自适应阈值策略,最终达成通信量减少95%且不

本文详细记录了在资源受限的Jetson Orin Nano Super开发套件上部署ResNet18模型的完整技术路径。通过FP16基线测试、知识蒸馏、结构化剪枝、QAT显式量化和DLA探测五个阶段,作者揭示了模型优化过程中容易被忽视的关键问题:INT8量化后因CPU调度开销导致吞吐量意外下降50%,通过CUDAGraph静态化调度实现1664FPS的反超;指出PyTorch剪枝接口仅作数值置零的

这篇文章深入解析了大模型训练中显存占用的核心问题,重点阐述了FP32 Master Weight的作用和取舍。通过记账的比喻,作者形象地解释了混合精度训练的本质:用低精度(FP16/BF16)进行高效计算,同时保留高精度(FP32)主权重确保数值稳定性。文章详细对比了FP16和BF16的差异,指出BF16凭借更大的数值范围更适合深度学习训练。在显存估算方面,作者给出了具体计算公式:10B参数的模型

这篇文章深入解析了大模型训练中显存占用的核心问题,重点阐述了FP32 Master Weight的作用和取舍。通过记账的比喻,作者形象地解释了混合精度训练的本质:用低精度(FP16/BF16)进行高效计算,同时保留高精度(FP32)主权重确保数值稳定性。文章详细对比了FP16和BF16的差异,指出BF16凭借更大的数值范围更适合深度学习训练。在显存估算方面,作者给出了具体计算公式:10B参数的模型

这篇文章深入解析了大模型训练中显存占用的核心问题,重点阐述了FP32 Master Weight的作用和取舍。通过记账的比喻,作者形象地解释了混合精度训练的本质:用低精度(FP16/BF16)进行高效计算,同时保留高精度(FP32)主权重确保数值稳定性。文章详细对比了FP16和BF16的差异,指出BF16凭借更大的数值范围更适合深度学习训练。在显存估算方面,作者给出了具体计算公式:10B参数的模型








