logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CANN ops-transformer FlashAttention 里的因果掩码:分块计算时怎么防止“偷看未来“

有个问题困扰了我一阵子:昇腾CANN 的 ops-transformer 仓库里 FlashAttention 分块做在线 Softmax 的时候,因果掩码(causal mask)怎么处理?分块算 QK^T,你只有局部数据,怎么知道哪些位置应该被遮掉?翻了一遍代码,发现实现方式和我想的完全不一样。昇腾NPU 上 FlashAttention 的 causal mask 处理是直接在分块级别做遮挡

#transformer#android#深度学习
CANN ops-transformer FlashAttention 里的因果掩码:分块计算时怎么防止“偷看未来“

有个问题困扰了我一阵子:昇腾CANN 的 ops-transformer 仓库里 FlashAttention 分块做在线 Softmax 的时候,因果掩码(causal mask)怎么处理?分块算 QK^T,你只有局部数据,怎么知道哪些位置应该被遮掉?翻了一遍代码,发现实现方式和我想的完全不一样。昇腾NPU 上 FlashAttention 的 causal mask 处理是直接在分块级别做遮挡

#transformer#android#深度学习
到底了