logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

昇腾CANN视觉算子目标检测场景NPU加速实战

目标检测是计算机视觉领域最核心的任务之一,从自动驾驶到工业质检,几乎无处不在。但在昇腾NPU上跑通一整条检测链路,远不是"把模型丢上去跑"这么简单。昇腾CANN 提供的 ops-cv 仓库专门收录了计算机视觉类算子的实现,其中 image 和 objdetect 分类下的算子覆盖了从图像预处理到 NMS 后处理的完整流程。这篇文章就围绕 ops-cv 仓库中的目标检测相关算子,聊聊在 Ascend

文章图片
#目标检测#人工智能#计算机视觉
昇腾CANN视觉算子目标检测场景NPU加速实战

目标检测是计算机视觉领域最核心的任务之一,从自动驾驶到工业质检,几乎无处不在。但在昇腾NPU上跑通一整条检测链路,远不是"把模型丢上去跑"这么简单。昇腾CANN 提供的 ops-cv 仓库专门收录了计算机视觉类算子的实现,其中 image 和 objdetect 分类下的算子覆盖了从图像预处理到 NMS 后处理的完整流程。这篇文章就围绕 ops-cv 仓库中的目标检测相关算子,聊聊在 Ascend

文章图片
#目标检测#人工智能#计算机视觉
昇腾CANN视觉算子目标检测场景NPU加速实战

目标检测是计算机视觉领域最核心的任务之一,从自动驾驶到工业质检,几乎无处不在。但在昇腾NPU上跑通一整条检测链路,远不是"把模型丢上去跑"这么简单。昇腾CANN 提供的 ops-cv 仓库专门收录了计算机视觉类算子的实现,其中 image 和 objdetect 分类下的算子覆盖了从图像预处理到 NMS 后处理的完整流程。这篇文章就围绕 ops-cv 仓库中的目标检测相关算子,聊聊在 Ascend

文章图片
#目标检测#人工智能#计算机视觉
自定义数学算子的 Ascend C 开发全流程——从零写一个 Sin/Cos 算子

在深度学习模型的开发过程中,开发者经常会遇到框架内置算子无法满足需求的情况。位置编码、激活函数变体、特定的数学变换等场景,往往需要开发者自行实现自定义算子。昇腾CANN 提供的 Ascend C 编程语言,为开发者提供了在昇腾 910 处理器上高效开发自定义算子的能力。

文章图片
#c语言#开发语言
自定义数学算子的 Ascend C 开发全流程——从零写一个 Sin/Cos 算子

在深度学习模型的开发过程中,开发者经常会遇到框架内置算子无法满足需求的情况。位置编码、激活函数变体、特定的数学变换等场景,往往需要开发者自行实现自定义算子。昇腾CANN 提供的 Ascend C 编程语言,为开发者提供了在昇腾 910 处理器上高效开发自定义算子的能力。

文章图片
#c语言#开发语言
自定义数学算子的 Ascend C 开发全流程——从零写一个 Sin/Cos 算子

在深度学习模型的开发过程中,开发者经常会遇到框架内置算子无法满足需求的情况。位置编码、激活函数变体、特定的数学变换等场景,往往需要开发者自行实现自定义算子。昇腾CANN 提供的 Ascend C 编程语言,为开发者提供了在昇腾 910 处理器上高效开发自定义算子的能力。

文章图片
#c语言#开发语言
长序列推理中的 FlashAttention 调优实录——从 Profiling 数据到 Kernel 级优化

随着大语言模型在各类应用场景中的广泛落地,长序列推理性能已成为制约服务能力的关键瓶颈。以 128K 上下文窗口的模型为例,注意力机制的计算复杂度随序列长度呈二次方增长,传统的注意力实现方式在处理超长序列时会面临显存占用过高、计算效率低下等问题。昇腾CANN 针对这一痛点,提供了高度优化的 FlashAttention 算子实现,能够显著降低显存占用并提升计算吞吐。

文章图片
#git#vim
长序列推理中的 FlashAttention 调优实录——从 Profiling 数据到 Kernel 级优化

随着大语言模型在各类应用场景中的广泛落地,长序列推理性能已成为制约服务能力的关键瓶颈。以 128K 上下文窗口的模型为例,注意力机制的计算复杂度随序列长度呈二次方增长,传统的注意力实现方式在处理超长序列时会面临显存占用过高、计算效率低下等问题。昇腾CANN 针对这一痛点,提供了高度优化的 FlashAttention 算子实现,能够显著降低显存占用并提升计算吞吐。

文章图片
#git#vim
长序列推理中的 FlashAttention 调优实录——从 Profiling 数据到 Kernel 级优化

随着大语言模型在各类应用场景中的广泛落地,长序列推理性能已成为制约服务能力的关键瓶颈。以 128K 上下文窗口的模型为例,注意力机制的计算复杂度随序列长度呈二次方增长,传统的注意力实现方式在处理超长序列时会面临显存占用过高、计算效率低下等问题。昇腾CANN 针对这一痛点,提供了高度优化的 FlashAttention 算子实现,能够显著降低显存占用并提升计算吞吐。

文章图片
#git#vim
昇腾CANN HICANN 硬件接口与 NPU 亲和性调度机制深度解析

在昇腾CANN软件栈的分层架构中,HICANN 处于驱动层与上层运行时之间的关键位置,承担着对昇腾 NPU 硬件能力的抽象封装与调度转发职责。当上层框架(如 PyTorch)通过 Ascend CL 接口下发计算任务时,HICANN 负责将逻辑设备映射到物理 NPU,并在多卡、多芯片场景下完成亲和性调度决策。本文从 HICANN 的架构定位出发,深入剖析其硬件接口抽象机制与 NPU 亲和性调度的实

文章图片
#vim
    共 32 条
  • 1
  • 2
  • 3
  • 4
  • 请选择