
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
目标检测是计算机视觉领域最核心的任务之一,从自动驾驶到工业质检,几乎无处不在。但在昇腾NPU上跑通一整条检测链路,远不是"把模型丢上去跑"这么简单。昇腾CANN 提供的 ops-cv 仓库专门收录了计算机视觉类算子的实现,其中 image 和 objdetect 分类下的算子覆盖了从图像预处理到 NMS 后处理的完整流程。这篇文章就围绕 ops-cv 仓库中的目标检测相关算子,聊聊在 Ascend

目标检测是计算机视觉领域最核心的任务之一,从自动驾驶到工业质检,几乎无处不在。但在昇腾NPU上跑通一整条检测链路,远不是"把模型丢上去跑"这么简单。昇腾CANN 提供的 ops-cv 仓库专门收录了计算机视觉类算子的实现,其中 image 和 objdetect 分类下的算子覆盖了从图像预处理到 NMS 后处理的完整流程。这篇文章就围绕 ops-cv 仓库中的目标检测相关算子,聊聊在 Ascend

目标检测是计算机视觉领域最核心的任务之一,从自动驾驶到工业质检,几乎无处不在。但在昇腾NPU上跑通一整条检测链路,远不是"把模型丢上去跑"这么简单。昇腾CANN 提供的 ops-cv 仓库专门收录了计算机视觉类算子的实现,其中 image 和 objdetect 分类下的算子覆盖了从图像预处理到 NMS 后处理的完整流程。这篇文章就围绕 ops-cv 仓库中的目标检测相关算子,聊聊在 Ascend

在深度学习模型的开发过程中,开发者经常会遇到框架内置算子无法满足需求的情况。位置编码、激活函数变体、特定的数学变换等场景,往往需要开发者自行实现自定义算子。昇腾CANN 提供的 Ascend C 编程语言,为开发者提供了在昇腾 910 处理器上高效开发自定义算子的能力。

在深度学习模型的开发过程中,开发者经常会遇到框架内置算子无法满足需求的情况。位置编码、激活函数变体、特定的数学变换等场景,往往需要开发者自行实现自定义算子。昇腾CANN 提供的 Ascend C 编程语言,为开发者提供了在昇腾 910 处理器上高效开发自定义算子的能力。

在深度学习模型的开发过程中,开发者经常会遇到框架内置算子无法满足需求的情况。位置编码、激活函数变体、特定的数学变换等场景,往往需要开发者自行实现自定义算子。昇腾CANN 提供的 Ascend C 编程语言,为开发者提供了在昇腾 910 处理器上高效开发自定义算子的能力。

随着大语言模型在各类应用场景中的广泛落地,长序列推理性能已成为制约服务能力的关键瓶颈。以 128K 上下文窗口的模型为例,注意力机制的计算复杂度随序列长度呈二次方增长,传统的注意力实现方式在处理超长序列时会面临显存占用过高、计算效率低下等问题。昇腾CANN 针对这一痛点,提供了高度优化的 FlashAttention 算子实现,能够显著降低显存占用并提升计算吞吐。

随着大语言模型在各类应用场景中的广泛落地,长序列推理性能已成为制约服务能力的关键瓶颈。以 128K 上下文窗口的模型为例,注意力机制的计算复杂度随序列长度呈二次方增长,传统的注意力实现方式在处理超长序列时会面临显存占用过高、计算效率低下等问题。昇腾CANN 针对这一痛点,提供了高度优化的 FlashAttention 算子实现,能够显著降低显存占用并提升计算吞吐。

随着大语言模型在各类应用场景中的广泛落地,长序列推理性能已成为制约服务能力的关键瓶颈。以 128K 上下文窗口的模型为例,注意力机制的计算复杂度随序列长度呈二次方增长,传统的注意力实现方式在处理超长序列时会面临显存占用过高、计算效率低下等问题。昇腾CANN 针对这一痛点,提供了高度优化的 FlashAttention 算子实现,能够显著降低显存占用并提升计算吞吐。

在昇腾CANN软件栈的分层架构中,HICANN 处于驱动层与上层运行时之间的关键位置,承担着对昇腾 NPU 硬件能力的抽象封装与调度转发职责。当上层框架(如 PyTorch)通过 Ascend CL 接口下发计算任务时,HICANN 负责将逻辑设备映射到物理 NPU,并在多卡、多芯片场景下完成亲和性调度决策。本文从 HICANN 的架构定位出发,深入剖析其硬件接口抽象机制与 NPU 亲和性调度的实








