33sunrise 个人主页

@2601_96121233

33sunrise

2026-05-22 21:34:35 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

昇腾CANN视觉算子目标检测场景NPU加速实战

目标检测是计算机视觉领域最核心的任务之一，从自动驾驶到工业质检，几乎无处不在。但在昇腾NPU上跑通一整条检测链路，远不是"把模型丢上去跑"这么简单。昇腾CANN 提供的 ops-cv 仓库专门收录了计算机视觉类算子的实现，其中 image 和 objdetect 分类下的算子覆盖了从图像预处理到 NMS 后处理的完整流程。这篇文章就围绕 ops-cv 仓库中的目标检测相关算子，聊聊在 Ascend

#目标检测 #人工智能 #计算机视觉

昇腾CANN视觉算子目标检测场景NPU加速实战

#目标检测 #人工智能 #计算机视觉

昇腾CANN视觉算子目标检测场景NPU加速实战

#目标检测 #人工智能 #计算机视觉

自定义数学算子的 Ascend C 开发全流程——从零写一个 Sin/Cos 算子

在深度学习模型的开发过程中，开发者经常会遇到框架内置算子无法满足需求的情况。位置编码、激活函数变体、特定的数学变换等场景，往往需要开发者自行实现自定义算子。昇腾CANN 提供的 Ascend C 编程语言，为开发者提供了在昇腾 910 处理器上高效开发自定义算子的能力。

#c语言 #开发语言

自定义数学算子的 Ascend C 开发全流程——从零写一个 Sin/Cos 算子

#c语言 #开发语言

自定义数学算子的 Ascend C 开发全流程——从零写一个 Sin/Cos 算子

#c语言 #开发语言

长序列推理中的 FlashAttention 调优实录——从 Profiling 数据到 Kernel 级优化

随着大语言模型在各类应用场景中的广泛落地，长序列推理性能已成为制约服务能力的关键瓶颈。以 128K 上下文窗口的模型为例，注意力机制的计算复杂度随序列长度呈二次方增长，传统的注意力实现方式在处理超长序列时会面临显存占用过高、计算效率低下等问题。昇腾CANN 针对这一痛点，提供了高度优化的 FlashAttention 算子实现，能够显著降低显存占用并提升计算吞吐。

#git #vim

长序列推理中的 FlashAttention 调优实录——从 Profiling 数据到 Kernel 级优化

#git #vim

长序列推理中的 FlashAttention 调优实录——从 Profiling 数据到 Kernel 级优化

#git #vim

昇腾CANN HICANN 硬件接口与 NPU 亲和性调度机制深度解析

在昇腾CANN软件栈的分层架构中，HICANN 处于驱动层与上层运行时之间的关键位置，承担着对昇腾 NPU 硬件能力的抽象封装与调度转发职责。当上层框架（如 PyTorch）通过 Ascend CL 接口下发计算任务时，HICANN 负责将逻辑设备映射到物理 NPU，并在多卡、多芯片场景下完成亲和性调度决策。本文从 HICANN 的架构定位出发，深入剖析其硬件接口抽象机制与 NPU 亲和性调度的实

#vim

共 32 条

请选择