diudiumama 个人主页

@diudiumama

diudiumama

2024-05-22 15:08:54 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

分布式训练的 module.

ckpt[key.replace('module.', '')] = ckpt[key] # 去掉 'module.' 前缀。del ckpt[key] # 删除原始带有 'module.' 的键。# 使用 DataParallel 包装模型。环境，键名不包含 module.中使用 PyTorch 的。时，模型的权重会被自动加上。前缀，保存时无法直接去掉。

#python

lora 理解

控制训练稳定性：由于 LoRA 主要是对已有的大模型进行微调，如果引入的调整过大，可能会导致训练不稳定。lora_alpha 的存在让这种调整可以被精细控制，从而保持训练的稳定性。避免过拟合：适当地设置 lora_alpha，可以防止对数据进行过拟合。一过大可能会导致过拟合，而过则可能让微调效果不明显。调节微调幅度：alpha 确保低秩矩阵对原始权重的影响不会过大。：A(m*r)B(r*n)实现微

#算法 #人工智能

controlnet_aux

是一个与ControlNet相关的辅助工具库，通常用于图像处理任务。它提供了一些预定义的处理器（如边缘检测、深度估计、线稿提取等），这些处理器可以作为 ControlNet 的输入，帮助生成模型（如 Stable Diffusion）更好地控制生成结果。安装：pip install controlnet-aux# 加载输入图像# 初始化# 对图像进行边缘检测# 保存边缘检测结果。

#人工智能 #计算机视觉

学习率调度器（Learning Rate Scheduler）

学习率调度器（Learning Rate Scheduler）是一种在训练过程中动态调整学习率的工具。学习率是优化器中的一个超参数，它决定了模型参数在每次更新时的调整步幅。合适的学习率可以加速模型收敛，而不合适的学习率可能导致训练过程不稳定或收敛速度慢。

#学习 #人工智能 #机器学习

常见优化器

它是对 Adagrad 的改进，旨在解决 Adagrad 学习率逐渐变小的问题。Adadelta 通过限制累积梯度的窗口大小，动态调整每个参数的学习率，从而提高训练效率和稳定性。它通过计算梯度的一阶和二阶矩估计来动态调整每个参数的学习率，并包含偏差校正步骤，以确保在训练初期估计值的准确性。Nadam 的核心思想是结合 Adam 的自适应学习率和 Nesterov 动量的提前梯度计算。两个超参数：学

#人工智能 #深度学习 #机器学习

到底了