
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文探讨了分布式通信在大模型训练中的必要性及其优化方法。以GPT-3 175B为例,单卡无法容纳模型参数和优化器状态,且计算耗时过长。分布式训练通过多卡协同计算解决此问题,但面临通信开销挑战。文章详细介绍了HCCL通信原语(AllReduce、AllGather、ReduceScatter、Broadcast和Reduce)的功能与实现,重点分析了Ring AllReduce算法的两阶段执行原理。

本文分析了昇腾NPU的三级存储架构及其内存管理策略。NPU采用HBM、L2 Cache和L1 Cache三级存储体系,各级在容量、带宽和延迟上差异显著。数据搬运开销往往超过计算开销,因此需要优化内存管理。文章比较了静态分配和动态分配的优缺点,并详细介绍了内存池化技术,包括预分配策略、分配/释放机制以及碎片合并方法。内存池通过预分配大块内存、复用空闲块和合并相邻块来提升内存利用率,适用于需要确定性延

本文分析了昇腾NPU的三级存储架构及其内存管理策略。NPU采用HBM、L2 Cache和L1 Cache三级存储体系,各级在容量、带宽和延迟上差异显著。数据搬运开销往往超过计算开销,因此需要优化内存管理。文章比较了静态分配和动态分配的优缺点,并详细介绍了内存池化技术,包括预分配策略、分配/释放机制以及碎片合并方法。内存池通过预分配大块内存、复用空闲块和合并相邻块来提升内存利用率,适用于需要确定性延

本文介绍了CANN资源管理模型和任务调度系统。主要内容包括: CANN资源层次分为物理设备层、逻辑设备层和进程层,通过抽象实现资源隔离和灵活分配; 资源分配流程包含调度检查、资源分配、任务执行和资源回收四个阶段; 任务调度系统采用多优先级队列(CRITICAL/HIGH/NORMAL/LOW)和抢占式调度机制,确保高优先级任务能及时执行; 通过公平调度算法为不同优先级任务分配配额,防止低优先级任务

本文探讨了分布式通信在大模型训练中的必要性及其优化方法。以GPT-3 175B为例,单卡无法容纳模型参数和优化器状态,且计算耗时过长。分布式训练通过多卡协同计算解决此问题,但面临通信开销挑战。文章详细介绍了HCCL通信原语(AllReduce、AllGather、ReduceScatter、Broadcast和Reduce)的功能与实现,重点分析了Ring AllReduce算法的两阶段执行原理。

FlashAttention通过分块计算和在线Softmax技术,将注意力计算的显存占用从O(N²)降至O(N),同时减少HBM访问次数,实现2.4倍加速。推测解码则利用小模型快速生成候选token,大模型并行验证,打破自回归推理的串行瓶颈,可提升3倍生成速度。两种技术均保持与原方法一致的输出质量,仅需替换实现即可获得显著性能提升。

本文介绍了深度学习模型调试工具的全景图和算子行为追踪器的实现方法。主要内容包括: 调试工具全景 提供不同问题类型的工具选型建议,如算子错误使用追踪器,性能问题使用Profiling工具 日志级别配置方法,支持设置全局和算子级日志级别 算子行为追踪器实现 可追踪算子的输入输出形状、数据类型、执行耗时、内存使用等 自动检查NaN/Inf异常值 提供Top10最慢算子分析 支持上下文管理器方式使用 自动

多模型编排解决复杂AI任务中单模型的局限性,通过协调多个模型的执行顺序、数据流转和资源分配。主要编排模式包括:1)串行编排(Pipeline),适用于严格依赖关系的场景,逻辑简单但延迟叠加;2)并行编排,适用于无依赖关系的任务,缩短总延迟但显存压力大;3)有向无环图(DAG)编排,支持复杂依赖关系,灵活性高但实现复杂。以CANN框架为例,串行编排器通过预处理、推理和后处理的链式调用实现多模型协同工

《昇腾NPU推理方式对比:ACL、ATC与Torch-NPU深度解析》摘要: 本文系统对比了昇腾NPU的三种主流推理方案。Torch-NPU直接加载PyTorch模型,开发便捷但性能一般,适合算法验证;ATC+ACL方案通过模型编译实现最优性能(3-4倍提升),适合生产部署;MindSpore Lite支持INT8量化,资源占用低,适用于边缘设备。文章提供了详细的技术指标对比(如ResNet50推

《昇腾NPU推理方式对比:ACL、ATC与Torch-NPU深度解析》摘要: 本文系统对比了昇腾NPU的三种主流推理方案。Torch-NPU直接加载PyTorch模型,开发便捷但性能一般,适合算法验证;ATC+ACL方案通过模型编译实现最优性能(3-4倍提升),适合生产部署;MindSpore Lite支持INT8量化,资源占用低,适用于边缘设备。文章提供了详细的技术指标对比(如ResNet50推








