logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CANN torchtitan-npu:用 PyTorch 原生方式训练大模型

Meta开源的torchtitan-npu是昇腾NPU适配版本,基于PyTorch FSDP框架实现大模型训练。它通过替换设备抽象层、通信后端和算子适配(CUDA→CANN),支持在昇腾NPU上运行LLaMA等模型。环境需严格匹配CANN 8.0+、PyTorch 2.1.0+等组件版本,配置文件支持7B/13B/70B等不同规模的模型训练。框架提供FSDP+HCCL数据并行方案,支持Tensor

文章图片
#pytorch#人工智能#python
CANN torchtitan-npu:用 PyTorch 原生方式训练大模型

Meta开源的torchtitan-npu是昇腾NPU适配版本,基于PyTorch FSDP框架实现大模型训练。它通过替换设备抽象层、通信后端和算子适配(CUDA→CANN),支持在昇腾NPU上运行LLaMA等模型。环境需严格匹配CANN 8.0+、PyTorch 2.1.0+等组件版本,配置文件支持7B/13B/70B等不同规模的模型训练。框架提供FSDP+HCCL数据并行方案,支持Tensor

文章图片
#pytorch#人工智能#python
CANN torchtitan-npu:用 PyTorch 原生方式训练大模型

Meta开源的torchtitan-npu是昇腾NPU适配版本,基于PyTorch FSDP框架实现大模型训练。它通过替换设备抽象层、通信后端和算子适配(CUDA→CANN),支持在昇腾NPU上运行LLaMA等模型。环境需严格匹配CANN 8.0+、PyTorch 2.1.0+等组件版本,配置文件支持7B/13B/70B等不同规模的模型训练。框架提供FSDP+HCCL数据并行方案,支持Tensor

文章图片
#pytorch#人工智能#python
CANN torchtitan-npu:用 PyTorch 原生方式训练大模型

Meta开源的torchtitan-npu是昇腾NPU适配版本,基于PyTorch FSDP框架实现大模型训练。它通过替换设备抽象层、通信后端和算子适配(CUDA→CANN),支持在昇腾NPU上运行LLaMA等模型。环境需严格匹配CANN 8.0+、PyTorch 2.1.0+等组件版本,配置文件支持7B/13B/70B等不同规模的模型训练。框架提供FSDP+HCCL数据并行方案,支持Tensor

文章图片
#pytorch#人工智能#python
CANN runtime:昇腾NPU的运行时怎么管理计算任务

昇腾NPU运行时(runtime)是连接算子编译与硬件执行的关键中间层,负责内存管理、任务调度和流控制。它通过Context管理设备资源,利用Stream实现并行计算,借助Event进行流间同步,并采用高效的内存分配策略。runtime采用命令队列模式下发任务,支持同步/异步执行,通过多Stream并行提升NPU利用率。开发者可通过内存池复用、多流并行等技术优化性能,并使用msprof工具监控硬件

文章图片
#人工智能#flask#python +3
CANN runtime:昇腾NPU的运行时怎么管理计算任务

昇腾NPU运行时(runtime)是连接算子编译与硬件执行的关键中间层,负责内存管理、任务调度和流控制。它通过Context管理设备资源,利用Stream实现并行计算,借助Event进行流间同步,并采用高效的内存分配策略。runtime采用命令队列模式下发任务,支持同步/异步执行,通过多Stream并行提升NPU利用率。开发者可通过内存池复用、多流并行等技术优化性能,并使用msprof工具监控硬件

文章图片
#人工智能#flask#python +3
CANN ATB:Transformer 推理加速库的融合策略

ATB(Ascend Transformer Boost)是昇腾NPU上的Transformer加速库,通过算子级融合技术显著提升LLM推理性能。它将Decoder Layer的计算流程(包括Attention、LayerNorm、FFN等)融合为单个大Kernel,减少中间结果在HBM中的频繁读写,可降低30-50%的延迟。ATB支持LLaMA、ChatGLM等主流模型,提供Prefill和De

文章图片
#transformer#深度学习#人工智能
CANN ATB:Transformer 推理加速库的融合策略

ATB(Ascend Transformer Boost)是昇腾NPU上的Transformer加速库,通过算子级融合技术显著提升LLM推理性能。它将Decoder Layer的计算流程(包括Attention、LayerNorm、FFN等)融合为单个大Kernel,减少中间结果在HBM中的频繁读写,可降低30-50%的延迟。ATB支持LLaMA、ChatGLM等主流模型,提供Prefill和De

文章图片
#transformer#深度学习#人工智能
CANN ATB:Transformer 推理加速库的融合策略

ATB(Ascend Transformer Boost)是昇腾NPU上的Transformer加速库,通过算子级融合技术显著提升LLM推理性能。它将Decoder Layer的计算流程(包括Attention、LayerNorm、FFN等)融合为单个大Kernel,减少中间结果在HBM中的频繁读写,可降低30-50%的延迟。ATB支持LLaMA、ChatGLM等主流模型,提供Prefill和De

文章图片
#transformer#深度学习#人工智能
RoPE 位置编码算子:让 Transformer 记住“你是第几个字“

本文分析了昇腾NPU上运行LLaMA推理时,当上下文超过2K时模型性能下降的原因——位置编码(RoPE)处理不当。文章详细介绍了RoPE的工作原理及其在长上下文中的计算瓶颈,并提出了三种优化方案:1)预计算+查找表减少重复计算;2)利用Vector核并行处理旋转运算;3)分块处理长上下文以减少显存访问。实验显示,优化后LLaMA-2 7B模型的Prefill吞吐提升44%,解码延迟降低30%。文章

文章图片
#transformer#深度学习#人工智能
    共 39 条
  • 1
  • 2
  • 3
  • 4
  • 请选择