鹤额个人主页

@qq_45943646

鹤额

2024-05-20 10:16:14 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

深度学习数值精度详细对比：BF16、FP16、FP32

训练阶段：推荐BF16。

文章图片

#深度学习 #人工智能

大模型训练和推理所需的显存计算

单层激活值显存：约2.29 GB全模型激活值显存：约91.6 GB推理阶段，所需要的显存：推理阶段显存 = 模型参数显存 + KV Cache显存 + 激活值显存KV Cache显存 = 批次大小 × 模型层数 × 序列长度 × (键矩阵大小 + 值矩阵大小) × 2字节单层KV Cache显存 = 1 × 序列长度 × 隐藏层维度 × 2= 20,971,520字节≈ 20 MB总KV Cach

文章图片

#人工智能 #深度学习

LoRA微调与大模型知识遗忘相关

*全参数微调(Full Fine-tuning)**是指更新大型语言模型(LLM)的所有参数。这种方法直接修改原始预训练模型的全部权重。**LoRA微调(Low-Rank Adaptation)**是一种参数高效的微调方法，它通过添加少量可训练的低秩矩阵来调整模型，而保持原始预训练权重不变。

文章图片

#人工智能 #深度学习 #机器学习

大模型训练和推理所需的显存计算

单层激活值显存：约2.29 GB全模型激活值显存：约91.6 GB推理阶段，所需要的显存：推理阶段显存 = 模型参数显存 + KV Cache显存 + 激活值显存KV Cache显存 = 批次大小 × 模型层数 × 序列长度 × (键矩阵大小 + 值矩阵大小) × 2字节单层KV Cache显存 = 1 × 序列长度 × 隐藏层维度 × 2= 20,971,520字节≈ 20 MB总KV Cach

文章图片

#人工智能 #深度学习

大模型训练和推理所需的显存计算

单层激活值显存：约2.29 GB全模型激活值显存：约91.6 GB推理阶段，所需要的显存：推理阶段显存 = 模型参数显存 + KV Cache显存 + 激活值显存KV Cache显存 = 批次大小 × 模型层数 × 序列长度 × (键矩阵大小 + 值矩阵大小) × 2字节单层KV Cache显存 = 1 × 序列长度 × 隐藏层维度 × 2= 20,971,520字节≈ 20 MB总KV Cach

文章图片

#人工智能 #深度学习

大模型训练和推理所需的显存计算

单层激活值显存：约2.29 GB全模型激活值显存：约91.6 GB推理阶段，所需要的显存：推理阶段显存 = 模型参数显存 + KV Cache显存 + 激活值显存KV Cache显存 = 批次大小 × 模型层数 × 序列长度 × (键矩阵大小 + 值矩阵大小) × 2字节单层KV Cache显存 = 1 × 序列长度 × 隐藏层维度 × 2= 20,971,520字节≈ 20 MB总KV Cach

文章图片

#人工智能 #深度学习

LoRA微调与大模型知识遗忘相关

*全参数微调(Full Fine-tuning)**是指更新大型语言模型(LLM)的所有参数。这种方法直接修改原始预训练模型的全部权重。**LoRA微调(Low-Rank Adaptation)**是一种参数高效的微调方法，它通过添加少量可训练的低秩矩阵来调整模型，而保持原始预训练权重不变。

文章图片

#人工智能 #深度学习 #机器学习

到底了