logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

昇腾CANN Transformer算子库ops-transformer架构原理剖析:大模型推理的算子级优化设计

Transformer架构自2017年提出以来,已经成为自然语言处理、计算机视觉乃至多模态大模型的基础骨架。随着GPT、LLaMA、DeepSeek等模型参数规模从数十亿跃升至数千亿,模型的推理部署对底层硬件算子库提出了极高的要求。每一层Self-Attention的计算涉及大量矩阵乘法、Softmax归一化和向量运算,这些操作在昇腾NPU上的执行效率,直接决定了端到端推理吞吐量和首Token延迟

文章图片
pyasc版本:实现两个张量的逐元素加法

一个做视觉检测的朋友跟我吐槽。他写了一个图像预处理算法,在CPU上跑得挺慢,想搬到昇腾NPU上加速。昇腾CANN生态提供了强大的算力支撑,但原生Ascend C的C++编程门槛让很多Python开发者望而却步。pyasc的出现改变了这个局面——结果一看Ascend C的文档,满屏的C++模板代码,顿时头大。"我就想写个简单的算子,非要我学C++不可吗?"他问我。这个问题其实困扰过很多人。昇腾CAN

文章图片
pyasc版本:实现两个张量的逐元素加法

一个做视觉检测的朋友跟我吐槽。他写了一个图像预处理算法,在CPU上跑得挺慢,想搬到昇腾NPU上加速。昇腾CANN生态提供了强大的算力支撑,但原生Ascend C的C++编程门槛让很多Python开发者望而却步。pyasc的出现改变了这个局面——结果一看Ascend C的文档,满屏的C++模板代码,顿时头大。"我就想写个简单的算子,非要我学C++不可吗?"他问我。这个问题其实困扰过很多人。昇腾CAN

文章图片
pyasc版本:实现两个张量的逐元素加法

一个做视觉检测的朋友跟我吐槽。他写了一个图像预处理算法,在CPU上跑得挺慢,想搬到昇腾NPU上加速。昇腾CANN生态提供了强大的算力支撑,但原生Ascend C的C++编程门槛让很多Python开发者望而却步。pyasc的出现改变了这个局面——结果一看Ascend C的文档,满屏的C++模板代码,顿时头大。"我就想写个简单的算子,非要我学C++不可吗?"他问我。这个问题其实困扰过很多人。昇腾CAN

文章图片
基于CANN的昇腾NPU Transformer模型加速库ATB核心架构解析与实战应用

随着大语言模型和生成式AI技术的蓬勃发展,Transformer架构已成为自然语言处理领域的主流模型范式。在这一技术浪潮中,华为CANN(Compute Architecture for Neural Networks)软件栈为昇腾NPU提供了完整的深度学习计算能力支撑。Ascend Transformer Boost加速库(简称ATB)作为CANN生态中的关键组件,专门针对Transformer

文章图片
基于CANN的昇腾NPU Transformer模型加速库ATB核心架构解析与实战应用

随着大语言模型和生成式AI技术的蓬勃发展,Transformer架构已成为自然语言处理领域的主流模型范式。在这一技术浪潮中,华为CANN(Compute Architecture for Neural Networks)软件栈为昇腾NPU提供了完整的深度学习计算能力支撑。Ascend Transformer Boost加速库(简称ATB)作为CANN生态中的关键组件,专门针对Transformer

文章图片
基于CANN的昇腾NPU Transformer模型加速库ATB核心架构解析与实战应用

随着大语言模型和生成式AI技术的蓬勃发展,Transformer架构已成为自然语言处理领域的主流模型范式。在这一技术浪潮中,华为CANN(Compute Architecture for Neural Networks)软件栈为昇腾NPU提供了完整的深度学习计算能力支撑。Ascend Transformer Boost加速库(简称ATB)作为CANN生态中的关键组件,专门针对Transformer

文章图片
基于CANN的昇腾NPU Transformer模型加速库ATB核心架构解析与实战应用

随着大语言模型和生成式AI技术的蓬勃发展,Transformer架构已成为自然语言处理领域的主流模型范式。在这一技术浪潮中,华为CANN(Compute Architecture for Neural Networks)软件栈为昇腾NPU提供了完整的深度学习计算能力支撑。Ascend Transformer Boost加速库(简称ATB)作为CANN生态中的关键组件,专门针对Transformer

文章图片
基于CANN的昇腾NPU Transformer模型加速库ATB核心架构解析与实战应用

随着大语言模型和生成式AI技术的蓬勃发展,Transformer架构已成为自然语言处理领域的主流模型范式。在这一技术浪潮中,华为CANN(Compute Architecture for Neural Networks)软件栈为昇腾NPU提供了完整的深度学习计算能力支撑。Ascend Transformer Boost加速库(简称ATB)作为CANN生态中的关键组件,专门针对Transformer

文章图片
深入解析 CANN 生态下的昇腾NPU共享内存通信库:架构设计与性能优化实践

在人工智能算力需求飞速增长的今天,多机多卡分布式训练已成为构建大规模AI模型的标配技术路径。昇腾NPU作为华为自主研发的国产AI加速器,凭借其强大的矩阵运算能力和高效的片上互联架构,在国内外众多智算中心得到了广泛应用。然而,如何在昇腾NPU集群中实现高效、低延迟的跨设备内存通信,一直是制约分布式训练效率提升的关键技术瓶颈。

文章图片
    共 159 条
  • 1
  • 2
  • 3
  • 16
  • 请选择