logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

cuda_1

cuda学习记录

文章图片
#算法#c++
大模型量化常用方法

大模型权重值模型的部署的文件,叫权重。例如LAMMA 70B,权重的参数就有70B个。中间激活值a,就是在推理过程中的中间值。KVcache ,transformer中有K,Q,V三个矩阵。Q是每个token进来,K,V是需要重复计算的,例如我们已经输出了一个token,在输出第二个token的时候还需要计算第一个token的K V计算,说白了就是用内存换取速度的决定。,gradient是梯度,可

文章图片
#c++
大模型量化常用方法

大模型权重值模型的部署的文件,叫权重。例如LAMMA 70B,权重的参数就有70B个。中间激活值a,就是在推理过程中的中间值。KVcache ,transformer中有K,Q,V三个矩阵。Q是每个token进来,K,V是需要重复计算的,例如我们已经输出了一个token,在输出第二个token的时候还需要计算第一个token的K V计算,说白了就是用内存换取速度的决定。,gradient是梯度,可

文章图片
#c++
大模型量化常用方法

大模型权重值模型的部署的文件,叫权重。例如LAMMA 70B,权重的参数就有70B个。中间激活值a,就是在推理过程中的中间值。KVcache ,transformer中有K,Q,V三个矩阵。Q是每个token进来,K,V是需要重复计算的,例如我们已经输出了一个token,在输出第二个token的时候还需要计算第一个token的K V计算,说白了就是用内存换取速度的决定。,gradient是梯度,可

文章图片
#c++
到底了