logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

FlashAttention V3 到底改了什么?一张图看懂 V1→V2→V3 的进化

V1 → V2:反向传播不用重算 QK^T,训练速度提升 64%V2 → V3:针对 GQA 优化(不广播 KV,直接共享),GQA 模型训练速度再提升 13%V3 附加改进:双缓冲提升 SRAM 利用率、原生 FP8 KV Cache 支持、ALiBi 原生支持用 GQA/MQA 的模型(Llama-2-70B、Falcon-40B)→升 V3用标准 MHA 的模型(Llama-2-7B)→V2

文章图片
#python#django
FlashAttention V3 到底改了什么?一张图看懂 V1→V2→V3 的进化

V1 → V2:反向传播不用重算 QK^T,训练速度提升 64%V2 → V3:针对 GQA 优化(不广播 KV,直接共享),GQA 模型训练速度再提升 13%V3 附加改进:双缓冲提升 SRAM 利用率、原生 FP8 KV Cache 支持、ALiBi 原生支持用 GQA/MQA 的模型(Llama-2-70B、Falcon-40B)→升 V3用标准 MHA 的模型(Llama-2-7B)→V2

文章图片
#python#django
Ascend C 从零开发高性能自定义算子:以 RMSNorm 为例,详解大模型推理优化实战

2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证,即可领取精美证书,完成社区任务更有机会赢取华为手机,平板、开发板等大奖。:Ascend C、RMSNorm、大语言模型、自定义算子、CANN 7.0、昇腾910B、向量化计算、PyTorch集成。在 LLa

文章图片
#c语言#开发语言
昇腾Ascend C极致优化实战:实现INT4量化矩阵乘(GEMM)算子,加速大模型推理

本文通过实现INT4 GEMM算子✅ 如何在Ascend C中处理非标准数据类型(INT4)✅量化感知计算的完整流程(打包→解包→反量化→计算)✅分组量化与混合精度的工程实践✅ 为大模型推理提供极致性价比的解决方案掌握此技术后,你已具备参与国产大模型全栈优化的核心能力!

文章图片
#c语言#矩阵#开发语言
昇腾Ascend C极致优化实战:实现INT4量化矩阵乘(GEMM)算子,加速大模型推理

本文通过实现INT4 GEMM算子✅ 如何在Ascend C中处理非标准数据类型(INT4)✅量化感知计算的完整流程(打包→解包→反量化→计算)✅分组量化与混合精度的工程实践✅ 为大模型推理提供极致性价比的解决方案掌握此技术后,你已具备参与国产大模型全栈优化的核心能力!

文章图片
#c语言#矩阵#开发语言
Ascend C 从零开发高性能自定义算子:以 RMSNorm 为例,详解大模型推理优化实战

2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证,即可领取精美证书,完成社区任务更有机会赢取华为手机,平板、开发板等大奖。:Ascend C、RMSNorm、大语言模型、自定义算子、CANN 7.0、昇腾910B、向量化计算、PyTorch集成。在 LLa

文章图片
#c语言#开发语言
# 昇腾AI极致优化:用Ascend C实现稀疏注意力(Sparse Attention)算子——支持动态Token稀疏 + Block-Sparse模式(含完整工程与性能分析

稀疏注意力的数学与工程实现Ascend C中高效稀疏索引处理技巧超长序列建模的完整解决方案🌟记住:在AI时代,不是所有连接都值得计算。稀疏,是通往高效智能的必经之路。下一步行动尝试与INT4量化融合探索训练时稀疏(Lottery Ticket Hypothesis)贡献稀疏算子到昇腾生态📚资源让万亿Token,在稀疏之翼下自由飞翔!

文章图片
#c语言#开发语言
    共 22 条
  • 1
  • 2
  • 3
  • 请选择