2301_78121008 个人主页

@2301_78121008

2301_78121008

2023-09-27 14:33:47 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

CANN技术解读｜ops-cv计算机视觉算子库核心能力与典型应用场景深度解析：架构设计、使用实践与性能优化全攻略

在人工智能技术飞速发展的今天，计算机视觉（Computer Vision，简称CV）作为人工智能最重要的分支之一，已经在各行各业得到了广泛应用。从智能手机的人脸识别到自动驾驶的环境感知，从工业质检到医疗影像分析，计算机视觉技术正在深刻改变着我们的生活和工作方式。然而，计算机视觉算法的落地应用并非易事。一个完整的CV应用从算法设计到最终部署，需要经历算法研发、模型训练、模型优化、硬件适配、性能调优等

深度解析 CANN 开发者竞赛平台：从算子开发到模型部署的全链路技术实践

CANN（Compute Architecture for Neural Networks）是华为为昇腾 AI 处理器打造的全栈计算基础设施，涵盖从底层硬件抽象到上层模型部署的完整软件栈。昇腾NPU 作为国产 AI 芯片的代表，在训练和推理场景中的应用日益广泛，而 cann-competitions 则是 CANN 开源社区为推动生态建设而设立的技术竞赛平台，面向全国开发者征集算子优化、模型部署和

深入解析昇腾CANN神经网络算子库ops-nn的核心能力与典型应用场景

在深度学习技术高速发展的当代背景下，神经网络模型的规模与复杂度呈现指数级增长趋势，从早期的LeNet、AlexNet到如今的百亿参数大语言模型，底层算力基础设施的演进扮演着至关重要的角色。昇腾CANN（Compute Architecture for Neural Networks）作为华为自主研发的AI计算架构，为昇腾NPU提供了完整的软件栈支撑，而ops-nn作为CANN算子库体系中专注于神经

昇腾CANN Transformer算子库ops-transformer全景解读：从FlashAttention到MoE

昇腾CANN作为华为自主研发的AI计算架构，其ops-transformer算子库正是为应对Transformer计算挑战而生的关键技术组件。在深度学习的浪潮中，Transformer架构自2017年诞生以来，已经彻底改变了自然语言处理、计算机视觉、语音识别等多个技术领域的面貌。从最初应用于机器翻译的Encoder-Decoder结构，到如今风靡全球的大型语言模型，Transformer凭借其强大

计算机视觉开发者必读：昇腾CANN ops-cv算子库的功能全景与架构解析

ops-cv算子库是CANN生态中专门针对计算机视觉领域设计的高性能算子库。在深度学习视觉任务中，卷积操作、池化、归一化等计算密集型操作占据了绝大部分计算资源。ops-cv通过针对昇腾NPU的硬件特性进行深度优化，充分发挥达芬奇架构的算力优势，为视觉模型提供显著的速度提升。AI Core计算单元，支持标量、向量和张量三种计算引擎的并行执行支持不同数据类型的混合精度计算专门优化的存储层次结构，包括L

重构昇腾算子开发体系：CATLASS模板元编程深度实践

在昇腾CANN的生态系统中，算子开发一直是连接上层AI框架与底层昇腾NPU硬件的关键环节。传统的算子开发方式要求开发者深度理解达芬奇架构的硬件特性，包括Cube单元的矩阵运算能力、Vector单元的向量处理能力以及DMA数据传输机制。这种开发模式不仅门槛高，而且难以规模化复用。catlass（昇腾算子模板库）的核心价值在于将达芬奇架构的计算特性封装为可复用的C++模板，让开发者能够像搭积木一样组合

pyasc 编程语言初探——用 Python 语法在昇腾 NPU 上开发自定义算子的完整指南

某天突然被要求写一个昇腾 NPU 的自定义算子，你的第一反应可能是崩溃的。Ascend C 用 C++ 编写，语法严谨，编译流程复杂，对于一个只写过 Python 的人来说，从零开始学一套全新的语言和工具链代价不小。pyasc 就是为了解决这个问题而生的。pyasc 是昇腾 CANN 社区推出的 Python 风格算子编程语言，接口与 Ascend C 一一对应，但遵守 Python 原生语法。

昇腾CANN Transformer算子库ops-transformer架构原理剖析：大模型推理的算子级优化设计

Transformer架构自2017年提出以来，已经成为自然语言处理、计算机视觉乃至多模态大模型的基础骨架。随着GPT、LLaMA、DeepSeek等模型参数规模从数十亿跃升至数千亿，模型的推理部署对底层硬件算子库提出了极高的要求。每一层Self-Attention的计算涉及大量矩阵乘法、Softmax归一化和向量运算，这些操作在昇腾NPU上的执行效率，直接决定了端到端推理吞吐量和首Token延迟

pyasc版本：实现两个张量的逐元素加法

一个做视觉检测的朋友跟我吐槽。他写了一个图像预处理算法，在CPU上跑得挺慢，想搬到昇腾NPU上加速。昇腾CANN生态提供了强大的算力支撑，但原生Ascend C的C++编程门槛让很多Python开发者望而却步。pyasc的出现改变了这个局面——结果一看Ascend C的文档，满屏的C++模板代码，顿时头大。"我就想写个简单的算子，非要我学C++不可吗？"他问我。这个问题其实困扰过很多人。昇腾CAN

pyasc版本：实现两个张量的逐元素加法

共 166 条

请选择