logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AI时代最大的骗局:工具会了,钱还是赚不到

AI时代最大的骗局:工具会了,钱还是赚不到

文章图片
#AI
CANN算子开发实战 | ops-transformer FlashAttention实现详解

本文深入解析了CANN中FlashAttention算子的实现,从算法原理到工程实践。FlashAttention通过分块计算、在线Softmax和重计算策略,显著降低了内存占用和IO复杂度。文章详细介绍了CANN架构和ops-transformer算子库,并分析了FlashAttention-2的优化点。最后展示了算子目录结构及关键组件,包括算子属性定义和形状推导,为高性能算子开发提供实践指导。

#深度学习#人工智能#transformer +1
从零开始:基于CANN ops-transformer的自定义算子开发指南

摘要:本文详细介绍了在CANN的ops-transformer框架下开发自定义算子FusedRMSNormRoPE的全流程。该算子融合了RMS归一化、线性变换和旋转位置编码(RoPE)操作,可显著减少大语言模型中的计算开销。文章从需求分析入手,阐述了融合算子的性能优势(可减少75%数据搬移),提供了完整的环境搭建指南,并展示了算子开发的目录结构。通过实际代码示例,指导开发者完成算子接口定义、核心算

#transformer#深度学习#人工智能 +1
CANN ops-transformer:大模型加速的关键 - MoE算子性能优化

本文深入解析了CANN ops-transformer中MoE(Mixture of Experts)算子的实现与优化。MoE作为稀疏专家模型的核心技术,通过动态路由实现高效的条件计算。文章系统阐述了MoE的基本原理、关键挑战(如动态路由、负载均衡等),并详细介绍了ops-transformer的解决方案,包括moe_gating、moe_compute_expert_tokens等核心算子的设计

#transformer#深度学习#人工智能 +1
CANN ops-transformer:大模型加速的关键 - MoE算子性能优化

本文深入解析了CANN ops-transformer中MoE(Mixture of Experts)算子的实现与优化。MoE作为稀疏专家模型的核心技术,通过动态路由实现高效的条件计算。文章系统阐述了MoE的基本原理、关键挑战(如动态路由、负载均衡等),并详细介绍了ops-transformer的解决方案,包括moe_gating、moe_compute_expert_tokens等核心算子的设计

#transformer#深度学习#人工智能 +1
CANN ops-transformer:大模型加速的关键 - MoE算子性能优化

本文深入解析了CANN ops-transformer中MoE(Mixture of Experts)算子的实现与优化。MoE作为稀疏专家模型的核心技术,通过动态路由实现高效的条件计算。文章系统阐述了MoE的基本原理、关键挑战(如动态路由、负载均衡等),并详细介绍了ops-transformer的解决方案,包括moe_gating、moe_compute_expert_tokens等核心算子的设计

#transformer#深度学习#人工智能 +1
CANN ops-transformer算子库架构与设计理念

本文深入解析了CANN生态中的ops-transformer算子库架构与核心技术。作为华为昇腾AI处理器专用算子库,ops-transformer针对Transformer类大模型进行了深度优化,包含注意力机制、MoE、位置编码等专用算子。其采用分层模块化设计,通过算法优化、内存管理和计算流水线设计显著提升性能。关键创新包括FlashAttention分块计算、MoE路由调度优化以及多样化位置编码

#transformer#架构#深度学习 +1
CANN ops-transformer算子库架构与设计理念

本文深入解析了CANN生态中的ops-transformer算子库架构与核心技术。作为华为昇腾AI处理器专用算子库,ops-transformer针对Transformer类大模型进行了深度优化,包含注意力机制、MoE、位置编码等专用算子。其采用分层模块化设计,通过算法优化、内存管理和计算流水线设计显著提升性能。关键创新包括FlashAttention分块计算、MoE路由调度优化以及多样化位置编码

#transformer#架构#深度学习 +1
CANN ops-transformer算子库架构与设计理念

本文深入解析了CANN生态中的ops-transformer算子库架构与核心技术。作为华为昇腾AI处理器专用算子库,ops-transformer针对Transformer类大模型进行了深度优化,包含注意力机制、MoE、位置编码等专用算子。其采用分层模块化设计,通过算法优化、内存管理和计算流水线设计显著提升性能。关键创新包括FlashAttention分块计算、MoE路由调度优化以及多样化位置编码

#transformer#架构#深度学习 +1
基于CANN的ops-nn Foreach批量算子解析与应用

Foreach算子是一类对张量列表进行批量操作的算子。与单张量操作不同,Foreach算子可以在一次调用中处理多个张量,通过批量化减少调用开销、优化内存访问、提升并行度。典型场景在深度学习训练中,优化器需要更新数百甚至数千个参数张量。如果逐个更新,会产生大量的kernel启动开销。使用Foreach算子可以将多个参数的更新合并为一次操作,显著提升性能。# 传统方式:逐个更新# Foreach方式:

#CANN
    共 91 条
  • 1
  • 2
  • 3
  • 10
  • 请选择