徐安安_ye2 个人主页

@2501_94607758

徐安安_ye2

2025-12-11 23:05:42 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

FlashAttention V3 到底改了什么？一张图看懂 V1→V2→V3 的进化

V1 → V2：反向传播不用重算 QK^T，训练速度提升 64%V2 → V3：针对 GQA 优化（不广播 KV，直接共享），GQA 模型训练速度再提升 13%V3 附加改进：双缓冲提升 SRAM 利用率、原生 FP8 KV Cache 支持、ALiBi 原生支持用 GQA/MQA 的模型（Llama-2-70B、Falcon-40B）→升 V3用标准 MHA 的模型（Llama-2-7B）→V2

#python #django

FlashAttention与跨语言应用：多语言场景下的优化策略

昇腾CANN平台上的ops-transformer算子库近期验证了FlashAttention在多语言场景的优化方案，让多语言大模型的推理速度提升2.8倍，显存占用降低55%。跨语言应用面临独特挑战：不同语言的文本长度差异巨大（中文紧凑、英文松散、德语超长），标准FlashAttention的固定block_size策略无法自适应。新方案通过语言感知的动态分块和共享子词Embedding，让模型在

#深度学习

FlashAttention与模型剪枝：结构化剪枝与Attention稀疏性的协同优化

昇腾CANN平台上的ops-transformer算子库近期验证了FlashAttention与结构化剪枝的协同优化方案，让模型压缩率提升40%的同时精度损失控制在2%以内。传统剪枝方法独立于Attention计算，导致剪枝后的模型无法充分利用FlashAttention的稀疏计算优势。新方案在剪枝阶段就考虑Attention稀疏模式，让剪枝后的模型结构天然适配FlashAttention的分块计

#剪枝 #算法 #机器学习

FlashAttention与RLHF：强化学习人类反馈

FlashAttention通过梯度检查点、Flash-RLHF（共享K/V Cache）、PPO算法优化，让RLHF训练的显存降低88.8%，训练速度提升4.5倍，奖励分数提升5.7-6.6分。在昇腾NPU上，还有达芬奇架构感知梯度检查点、零拷贝K/V Cache共享、多AI Core负载均衡等独有优化。如果你在做RLHF训练（比如训练ChatGPT那样的对话模型），显存受限（<32GB），试试

#python #django

FlashAttention与RLHF：强化学习人类反馈

#python #django

FlashAttention与RLHF：强化学习人类反馈

#python #django

FlashAttention与RLHF：强化学习人类反馈

#python #django

FlashAttention与RLHF：强化学习人类反馈

#python #django

FlashAttention与模型量化：INT8/INT4/FP8

FlashAttention通过INT8/INT4/FP8量化和量化感知训练，让模型的显存降低70%，推理速度提升3.2倍，精度损失只有0.3%。在昇腾NPU上，还有达芬奇架构感知量化、零拷贝量化、动态量化校准等独有优化。如果你在显存受限的设备（比如手机、IoT）上部署大模型，试试量化FlashAttention。一行代码切换量化方式，不用改模型架构。仓库地址：https://atomgit.co

#python #django

FlashAttention与模型量化：INT8/INT4/FP8

#python #django

共 51 条

请选择