logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

FlashAttention 的分块大小到底怎么选?一文拆透 Tiling 策略*

所有讲 FlashAttention 的文章都会提“分块计算”四个字,但从来没人说清楚:块到底要多大?为什么是 128 不是 64?为什么 NVIDIA 的 block size 和昇腾 NPU 的不一样?今天把这个问题彻底拆透。

#前端#人工智能#linux
FlashAttention 的分块大小到底怎么选?一文拆透 Tiling 策略*

所有讲 FlashAttention 的文章都会提“分块计算”四个字,但从来没人说清楚:块到底要多大?为什么是 128 不是 64?为什么 NVIDIA 的 block size 和昇腾 NPU 的不一样?今天把这个问题彻底拆透。

#前端#人工智能#linux
为什么 FlashAttention 在昇腾NPU 上比 GPU 还快?

同样的 Llama2-70B,同样的 FlashAttention 算子,在 NVIDIA A100 上比标准注意力快 2x,在昇腾NPU 上却快 3x——同样的算法,为什么在不同硬件上加速比不一样?这背后其实是硬件架构和算子实现的协同优化。

#python
为什么 FlashAttention 在昇腾NPU 上比 GPU 还快?

同样的 Llama2-70B,同样的 FlashAttention 算子,在 NVIDIA A100 上比标准注意力快 2x,在昇腾NPU 上却快 3x——同样的算法,为什么在不同硬件上加速比不一样?这背后其实是硬件架构和算子实现的协同优化。

#python
MoE 路由算子到底在做什么?一次拆透 ops-transformer 的核心机制

跑大模型推理的时候,你可能听过 MoE(混合专家模型)这个名字——Llama2-70B、Mixtral 8x7B 都用的它。7B 参数的模型,每次推理要把所有 7B 的参数 Load 进显存、拿来算一遍。这么一来,实际参与计算的还是约 2 个 7B 的参数(14B),而不是 8 个 7B(56B)。标准实现里,8 个专家的权重全 Load 在显存里,路由完再挑 2 个来算。如果模型总是偷懒,只叫某

#transformer#深度学习#人工智能
FlashAttention 在昇腾NPU上到底快在哪?一次拆透 ops-transformer 的核心算子

这是一篇关于昇腾NPU上FlashAttention技术深度解析的CSDN博客文章。文章结合了您提供的网页信息(特别是仓库的上下文)以及深度学习算子优化的专业知识,旨在帮助开发者理解其原理、优势及在昇腾生态中的应用。

#transformer#深度学习#人工智能
FlashAttention 在昇腾NPU上到底快在哪?一次拆透 ops-transformer 的核心算子

这是一篇关于昇腾NPU上FlashAttention技术深度解析的CSDN博客文章。文章结合了您提供的网页信息(特别是仓库的上下文)以及深度学习算子优化的专业知识,旨在帮助开发者理解其原理、优势及在昇腾生态中的应用。

#transformer#深度学习#人工智能
Ascend C 全栈开发实战:从算子原理到高性能部署的完整指南

在AI模型性能竞赛中,算子(Operator)是决定推理速度的关键。传统解决方案需依赖CUDA或OpenCL,但(Ascend)采用异构架构(AI Core + Vector Core + Scalar Core),需专用编程语言释放其潜力。应运而生——它不仅是C/C++的扩展,更是连接算法创新与硬件性能的桥梁。💡dma_copy()Ascend C通过gdb。

文章图片
#c语言#开发语言
Ascend C 实战:开发高性能自定义 SwiGLU 算子,加速大模型 FFN 层(附完整代码与图解)

深入解析Ascend C:华为昇腾AI芯片的高效编程指南 - CSDN App】https://blog.csdn.net/2501_93573441/article/details/155790458?:developer@example.com | 昇腾社区ID: Ascend-AI-Dev。,将 3 步计算压缩为 1 次 Kernel 调用,显著提升推理性能。的结果已由前序 GEMM 算子计

文章图片
#c语言#开发语言
Ascend C 深度开发指南:从算子原理到高性能部署的全栈实战

在AI模型性能优化中,是决定推理速度的核心单元。传统解决方案需依赖CUDA或OpenCL,但(Ascend)采用异构架构(AI Core + Vector Core + Scalar Core),需专用编程语言释放其潜力。应运而生——它不仅是C/C++的扩展,更是连接算法创新与硬件性能的桥梁。💡dma_copy()Ascend C通过gdb。

文章图片
#c语言#开发语言
    共 39 条
  • 1
  • 2
  • 3
  • 4
  • 请选择