logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

FlashAttention输出全是NaN?数值问题排查指南

某团队在昇腾NPU上部署Llama-2-7B,用FlashAttention做推理。模型权重转换完成后,他们跑了一个简单测试:输入"Hello, world!",看模型能不能正常输出。结果输出的全是NaN(Not a Number)。他们排查了模型权重——权重没问题,都是正常的数值。他们又排查了输入——输入也没问题,tokenization正确。他们最后发现,问题出在FlashAttention的

文章图片
#人工智能#深度学习#机器学习
FlashAttention输出全是NaN?数值问题排查指南

某团队在昇腾NPU上部署Llama-2-7B,用FlashAttention做推理。模型权重转换完成后,他们跑了一个简单测试:输入"Hello, world!",看模型能不能正常输出。结果输出的全是NaN(Not a Number)。他们排查了模型权重——权重没问题,都是正常的数值。他们又排查了输入——输入也没问题,tokenization正确。他们最后发现,问题出在FlashAttention的

文章图片
#人工智能#深度学习#机器学习
FlashAttention输出全是NaN?数值问题排查指南

某团队在昇腾NPU上部署Llama-2-7B,用FlashAttention做推理。模型权重转换完成后,他们跑了一个简单测试:输入"Hello, world!",看模型能不能正常输出。结果输出的全是NaN(Not a Number)。他们排查了模型权重——权重没问题,都是正常的数值。他们又排查了输入——输入也没问题,tokenization正确。他们最后发现,问题出在FlashAttention的

文章图片
#人工智能#深度学习#机器学习
FlashAttention训练反向传播:梯度是怎么传回来的?

某团队想在昇腾NPU上训练自己的大模型,Attention层用的是FlashAttention。他们发现一个奇怪的现象:推理的时候FlashAttention快得飞起,但训练的时候速度反而比标准Attention慢,而且显存占用也比预期高。问题出在FlashAttention的反向传播上。推理只需要前向传播,但训练需要反向传播。FlashAttention在前向上省了显存(不用存注意力矩阵),但反

文章图片
#机器学习#深度学习#人工智能
FlashAttention训练反向传播:梯度是怎么传回来的?

某团队想在昇腾NPU上训练自己的大模型,Attention层用的是FlashAttention。他们发现一个奇怪的现象:推理的时候FlashAttention快得飞起,但训练的时候速度反而比标准Attention慢,而且显存占用也比预期高。问题出在FlashAttention的反向传播上。推理只需要前向传播,但训练需要反向传播。FlashAttention在前向上省了显存(不用存注意力矩阵),但反

文章图片
#机器学习#深度学习#人工智能
FlashAttention训练反向传播:梯度是怎么传回来的?

某团队想在昇腾NPU上训练自己的大模型,Attention层用的是FlashAttention。他们发现一个奇怪的现象:推理的时候FlashAttention快得飞起,但训练的时候速度反而比标准Attention慢,而且显存占用也比预期高。问题出在FlashAttention的反向传播上。推理只需要前向传播,但训练需要反向传播。FlashAttention在前向上省了显存(不用存注意力矩阵),但反

文章图片
#机器学习#深度学习#人工智能
FlashAttention的变体家族:GQA、MQA、Sparse Attention怎么选?

某团队在昇腾NPU上跑Mistral-7B,发现FlashAttention跑起来比Llama-2-7B慢很多。他们用的代码是一样的,都是,但速度就是不一样。后来发现,原因出在注意力机制的类型不同。Llama-2-7B用的是MHA(Multi-Head Attention),Mistral-7B用的是GQA(Group-Query Attention)。GQA的KV头颅数比Q头颅数少很多,Flas

文章图片
#chrome#前端#深度学习 +2
FlashAttention的变体家族:GQA、MQA、Sparse Attention怎么选?

某团队在昇腾NPU上跑Mistral-7B,发现FlashAttention跑起来比Llama-2-7B慢很多。他们用的代码是一样的,都是,但速度就是不一样。后来发现,原因出在注意力机制的类型不同。Llama-2-7B用的是MHA(Multi-Head Attention),Mistral-7B用的是GQA(Group-Query Attention)。GQA的KV头颅数比Q头颅数少很多,Flas

文章图片
#chrome#前端#深度学习 +2
FlashAttention正确性基准:算法对拍与数值精度对照表

某团队在昇腾NPU上部署FlashAttention后,性能提升了8倍,但业务方报告:"模型输出变了一点,虽然不多,但不允许。"团队对比了NPU输出和GPU输出,发现结果有微小差异——最大相对误差约1e-3。他们不确定:这1e-3是正常的数值误差,还是bug?问题出在没有建立正确性基准。FlashAttention相比标准Attention引入了tiling、在线softmax、近似计算等多个环节

文章图片
#算法#pytorch#python
FlashAttention正确性基准:算法对拍与数值精度对照表

某团队在昇腾NPU上部署FlashAttention后,性能提升了8倍,但业务方报告:"模型输出变了一点,虽然不多,但不允许。"团队对比了NPU输出和GPU输出,发现结果有微小差异——最大相对误差约1e-3。他们不确定:这1e-3是正常的数值误差,还是bug?问题出在没有建立正确性基准。FlashAttention相比标准Attention引入了tiling、在线softmax、近似计算等多个环节

文章图片
#算法#pytorch#python
    共 103 条
  • 1
  • 2
  • 3
  • 11
  • 请选择