
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
V1 → V2:反向传播不用重算 QK^T,训练速度提升 64%V2 → V3:针对 GQA 优化(不广播 KV,直接共享),GQA 模型训练速度再提升 13%V3 附加改进:双缓冲提升 SRAM 利用率、原生 FP8 KV Cache 支持、ALiBi 原生支持用 GQA/MQA 的模型(Llama-2-70B、Falcon-40B)→升 V3用标准 MHA 的模型(Llama-2-7B)→V2

昇腾CANN平台上的ops-transformer算子库近期验证了FlashAttention在多语言场景的优化方案,让多语言大模型的推理速度提升2.8倍,显存占用降低55%。跨语言应用面临独特挑战:不同语言的文本长度差异巨大(中文紧凑、英文松散、德语超长),标准FlashAttention的固定block_size策略无法自适应。新方案通过语言感知的动态分块和共享子词Embedding,让模型在

昇腾CANN平台上的ops-transformer算子库近期验证了FlashAttention与结构化剪枝的协同优化方案,让模型压缩率提升40%的同时精度损失控制在2%以内。传统剪枝方法独立于Attention计算,导致剪枝后的模型无法充分利用FlashAttention的稀疏计算优势。新方案在剪枝阶段就考虑Attention稀疏模式,让剪枝后的模型结构天然适配FlashAttention的分块计

FlashAttention通过梯度检查点、Flash-RLHF(共享K/V Cache)、PPO算法优化,让RLHF训练的显存降低88.8%,训练速度提升4.5倍,奖励分数提升5.7-6.6分。在昇腾NPU上,还有达芬奇架构感知梯度检查点、零拷贝K/V Cache共享、多AI Core负载均衡等独有优化。如果你在做RLHF训练(比如训练ChatGPT那样的对话模型),显存受限(<32GB),试试

FlashAttention通过梯度检查点、Flash-RLHF(共享K/V Cache)、PPO算法优化,让RLHF训练的显存降低88.8%,训练速度提升4.5倍,奖励分数提升5.7-6.6分。在昇腾NPU上,还有达芬奇架构感知梯度检查点、零拷贝K/V Cache共享、多AI Core负载均衡等独有优化。如果你在做RLHF训练(比如训练ChatGPT那样的对话模型),显存受限(<32GB),试试

FlashAttention通过梯度检查点、Flash-RLHF(共享K/V Cache)、PPO算法优化,让RLHF训练的显存降低88.8%,训练速度提升4.5倍,奖励分数提升5.7-6.6分。在昇腾NPU上,还有达芬奇架构感知梯度检查点、零拷贝K/V Cache共享、多AI Core负载均衡等独有优化。如果你在做RLHF训练(比如训练ChatGPT那样的对话模型),显存受限(<32GB),试试

FlashAttention通过梯度检查点、Flash-RLHF(共享K/V Cache)、PPO算法优化,让RLHF训练的显存降低88.8%,训练速度提升4.5倍,奖励分数提升5.7-6.6分。在昇腾NPU上,还有达芬奇架构感知梯度检查点、零拷贝K/V Cache共享、多AI Core负载均衡等独有优化。如果你在做RLHF训练(比如训练ChatGPT那样的对话模型),显存受限(<32GB),试试

FlashAttention通过梯度检查点、Flash-RLHF(共享K/V Cache)、PPO算法优化,让RLHF训练的显存降低88.8%,训练速度提升4.5倍,奖励分数提升5.7-6.6分。在昇腾NPU上,还有达芬奇架构感知梯度检查点、零拷贝K/V Cache共享、多AI Core负载均衡等独有优化。如果你在做RLHF训练(比如训练ChatGPT那样的对话模型),显存受限(<32GB),试试

FlashAttention通过INT8/INT4/FP8量化和量化感知训练,让模型的显存降低70%,推理速度提升3.2倍,精度损失只有0.3%。在昇腾NPU上,还有达芬奇架构感知量化、零拷贝量化、动态量化校准等独有优化。如果你在显存受限的设备(比如手机、IoT)上部署大模型,试试量化FlashAttention。一行代码切换量化方式,不用改模型架构。仓库地址:https://atomgit.co

FlashAttention通过INT8/INT4/FP8量化和量化感知训练,让模型的显存降低70%,推理速度提升3.2倍,精度损失只有0.3%。在昇腾NPU上,还有达芬奇架构感知量化、零拷贝量化、动态量化校准等独有优化。如果你在显存受限的设备(比如手机、IoT)上部署大模型,试试量化FlashAttention。一行代码切换量化方式,不用改模型架构。仓库地址:https://atomgit.co








