
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Transformer架构自2017年提出以来,已经成为自然语言处理、计算机视觉乃至多模态大模型的基础骨架。随着GPT、LLaMA、DeepSeek等模型参数规模从数十亿跃升至数千亿,模型的推理部署对底层硬件算子库提出了极高的要求。每一层Self-Attention的计算涉及大量矩阵乘法、Softmax归一化和向量运算,这些操作在昇腾NPU上的执行效率,直接决定了端到端推理吞吐量和首Token延迟

一个做视觉检测的朋友跟我吐槽。他写了一个图像预处理算法,在CPU上跑得挺慢,想搬到昇腾NPU上加速。昇腾CANN生态提供了强大的算力支撑,但原生Ascend C的C++编程门槛让很多Python开发者望而却步。pyasc的出现改变了这个局面——结果一看Ascend C的文档,满屏的C++模板代码,顿时头大。"我就想写个简单的算子,非要我学C++不可吗?"他问我。这个问题其实困扰过很多人。昇腾CAN

一个做视觉检测的朋友跟我吐槽。他写了一个图像预处理算法,在CPU上跑得挺慢,想搬到昇腾NPU上加速。昇腾CANN生态提供了强大的算力支撑,但原生Ascend C的C++编程门槛让很多Python开发者望而却步。pyasc的出现改变了这个局面——结果一看Ascend C的文档,满屏的C++模板代码,顿时头大。"我就想写个简单的算子,非要我学C++不可吗?"他问我。这个问题其实困扰过很多人。昇腾CAN

一个做视觉检测的朋友跟我吐槽。他写了一个图像预处理算法,在CPU上跑得挺慢,想搬到昇腾NPU上加速。昇腾CANN生态提供了强大的算力支撑,但原生Ascend C的C++编程门槛让很多Python开发者望而却步。pyasc的出现改变了这个局面——结果一看Ascend C的文档,满屏的C++模板代码,顿时头大。"我就想写个简单的算子,非要我学C++不可吗?"他问我。这个问题其实困扰过很多人。昇腾CAN

随着大语言模型和生成式AI技术的蓬勃发展,Transformer架构已成为自然语言处理领域的主流模型范式。在这一技术浪潮中,华为CANN(Compute Architecture for Neural Networks)软件栈为昇腾NPU提供了完整的深度学习计算能力支撑。Ascend Transformer Boost加速库(简称ATB)作为CANN生态中的关键组件,专门针对Transformer

随着大语言模型和生成式AI技术的蓬勃发展,Transformer架构已成为自然语言处理领域的主流模型范式。在这一技术浪潮中,华为CANN(Compute Architecture for Neural Networks)软件栈为昇腾NPU提供了完整的深度学习计算能力支撑。Ascend Transformer Boost加速库(简称ATB)作为CANN生态中的关键组件,专门针对Transformer

随着大语言模型和生成式AI技术的蓬勃发展,Transformer架构已成为自然语言处理领域的主流模型范式。在这一技术浪潮中,华为CANN(Compute Architecture for Neural Networks)软件栈为昇腾NPU提供了完整的深度学习计算能力支撑。Ascend Transformer Boost加速库(简称ATB)作为CANN生态中的关键组件,专门针对Transformer

随着大语言模型和生成式AI技术的蓬勃发展,Transformer架构已成为自然语言处理领域的主流模型范式。在这一技术浪潮中,华为CANN(Compute Architecture for Neural Networks)软件栈为昇腾NPU提供了完整的深度学习计算能力支撑。Ascend Transformer Boost加速库(简称ATB)作为CANN生态中的关键组件,专门针对Transformer

随着大语言模型和生成式AI技术的蓬勃发展,Transformer架构已成为自然语言处理领域的主流模型范式。在这一技术浪潮中,华为CANN(Compute Architecture for Neural Networks)软件栈为昇腾NPU提供了完整的深度学习计算能力支撑。Ascend Transformer Boost加速库(简称ATB)作为CANN生态中的关键组件,专门针对Transformer

在人工智能算力需求飞速增长的今天,多机多卡分布式训练已成为构建大规模AI模型的标配技术路径。昇腾NPU作为华为自主研发的国产AI加速器,凭借其强大的矩阵运算能力和高效的片上互联架构,在国内外众多智算中心得到了广泛应用。然而,如何在昇腾NPU集群中实现高效、低延迟的跨设备内存通信,一直是制约分布式训练效率提升的关键技术瓶颈。








