
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
CANN ops-transformer FlashAttention 里的因果掩码:分块计算时怎么防止“偷看未来“
有个问题困扰了我一阵子:昇腾CANN 的 ops-transformer 仓库里 FlashAttention 分块做在线 Softmax 的时候,因果掩码(causal mask)怎么处理?分块算 QK^T,你只有局部数据,怎么知道哪些位置应该被遮掉?翻了一遍代码,发现实现方式和我想的完全不一样。昇腾NPU 上 FlashAttention 的 causal mask 处理是直接在分块级别做遮挡
CANN ops-transformer FlashAttention 里的因果掩码:分块计算时怎么防止“偷看未来“
有个问题困扰了我一阵子:昇腾CANN 的 ops-transformer 仓库里 FlashAttention 分块做在线 Softmax 的时候,因果掩码(causal mask)怎么处理?分块算 QK^T,你只有局部数据,怎么知道哪些位置应该被遮掉?翻了一遍代码,发现实现方式和我想的完全不一样。昇腾NPU 上 FlashAttention 的 causal mask 处理是直接在分块级别做遮挡
到底了







