logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

分布式训练的 module.

ckpt[key.replace('module.', '')] = ckpt[key] # 去掉 'module.' 前缀。del ckpt[key] # 删除原始带有 'module.' 的键。# 使用 DataParallel 包装模型。环境 ,键名 不包含 module.中使用 PyTorch 的。时,模型的权重会被自动加上。前缀,保存时无法直接去掉。

文章图片
#python
lora 理解

控制训练稳定性:由于 LoRA 主要是对已有的大模型进行微调,如果引入的调整过大,可能会导致训练不稳定。lora_alpha 的存在让这种调整可以被精细控制,从而保持训练的稳定性。避免过拟合:适当地设置 lora_alpha,可以防止对数据进行过拟合。一过大可能会导致过拟合,而过则可能让微调效果不明显。调节微调幅度:alpha 确保低秩矩阵对原始权重的影响不会过大。:A(m*r)B(r*n)实现微

文章图片
#算法#人工智能
controlnet_aux

是一个与ControlNet相关的辅助工具库,通常用于图像处理任务。它提供了一些预定义的处理器(如边缘检测、深度估计、线稿提取等),这些处理器可以作为 ControlNet 的输入,帮助生成模型(如 Stable Diffusion)更好地控制生成结果。安装:pip install controlnet-aux# 加载输入图像# 初始化# 对图像进行边缘检测# 保存边缘检测结果。

文章图片
#人工智能#计算机视觉
学习率调度器(Learning Rate Scheduler)

学习率调度器(Learning Rate Scheduler)是一种在训练过程中动态调整学习率的工具。学习率是优化器中的一个超参数,它决定了模型参数在每次更新时的调整步幅。合适的学习率可以加速模型收敛,而不合适的学习率可能导致训练过程不稳定或收敛速度慢。

文章图片
#学习#人工智能#机器学习
常见优化器

它是对 Adagrad 的改进,旨在解决 Adagrad 学习率逐渐变小的问题。Adadelta 通过限制累积梯度的窗口大小,动态调整每个参数的学习率,从而提高训练效率和稳定性。它通过计算梯度的一阶和二阶矩估计来动态调整每个参数的学习率,并包含偏差校正步骤,以确保在训练初期估计值的准确性。Nadam 的核心思想是结合 Adam 的自适应学习率和 Nesterov 动量的提前梯度计算。两个超参数:学

文章图片
#人工智能#深度学习#机器学习
到底了