logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型训练和推理所需的显存计算

单层激活值显存:约2.29 GB全模型激活值显存:约91.6 GB推理阶段,所需要的显存:推理阶段显存 = 模型参数显存 + KV Cache显存 + 激活值显存KV Cache显存 = 批次大小 × 模型层数 × 序列长度 × (键矩阵大小 + 值矩阵大小) × 2字节单层KV Cache显存 = 1 × 序列长度 × 隐藏层维度 × 2= 20,971,520字节≈ 20 MB总KV Cach

文章图片
#人工智能#深度学习
LoRA微调与大模型知识遗忘相关

*全参数微调(Full Fine-tuning)**是指更新大型语言模型(LLM)的所有参数。这种方法直接修改原始预训练模型的全部权重。**LoRA微调(Low-Rank Adaptation)**是一种参数高效的微调方法,它通过添加少量可训练的低秩矩阵来调整模型,而保持原始预训练权重不变。

文章图片
#人工智能#深度学习#机器学习
大模型训练和推理所需的显存计算

单层激活值显存:约2.29 GB全模型激活值显存:约91.6 GB推理阶段,所需要的显存:推理阶段显存 = 模型参数显存 + KV Cache显存 + 激活值显存KV Cache显存 = 批次大小 × 模型层数 × 序列长度 × (键矩阵大小 + 值矩阵大小) × 2字节单层KV Cache显存 = 1 × 序列长度 × 隐藏层维度 × 2= 20,971,520字节≈ 20 MB总KV Cach

文章图片
#人工智能#深度学习
大模型训练和推理所需的显存计算

单层激活值显存:约2.29 GB全模型激活值显存:约91.6 GB推理阶段,所需要的显存:推理阶段显存 = 模型参数显存 + KV Cache显存 + 激活值显存KV Cache显存 = 批次大小 × 模型层数 × 序列长度 × (键矩阵大小 + 值矩阵大小) × 2字节单层KV Cache显存 = 1 × 序列长度 × 隐藏层维度 × 2= 20,971,520字节≈ 20 MB总KV Cach

文章图片
#人工智能#深度学习
大模型训练和推理所需的显存计算

单层激活值显存:约2.29 GB全模型激活值显存:约91.6 GB推理阶段,所需要的显存:推理阶段显存 = 模型参数显存 + KV Cache显存 + 激活值显存KV Cache显存 = 批次大小 × 模型层数 × 序列长度 × (键矩阵大小 + 值矩阵大小) × 2字节单层KV Cache显存 = 1 × 序列长度 × 隐藏层维度 × 2= 20,971,520字节≈ 20 MB总KV Cach

文章图片
#人工智能#深度学习
LoRA微调与大模型知识遗忘相关

*全参数微调(Full Fine-tuning)**是指更新大型语言模型(LLM)的所有参数。这种方法直接修改原始预训练模型的全部权重。**LoRA微调(Low-Rank Adaptation)**是一种参数高效的微调方法,它通过添加少量可训练的低秩矩阵来调整模型,而保持原始预训练权重不变。

文章图片
#人工智能#深度学习#机器学习
到底了