logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

笔记:强化学习入门:Q Learning+ 补充:代码部分

1强化学习是机器学习的一个重要的分支,它主要研究如何在环境中做出合适的动作以最大化某些奖励理解:在所处环境下,怎样达到目标的最优方法或者步骤2强化学习中的几个核心概念智能体(Agent)环境(Environment)动作(Action)奖励(Reward)智能体存在于环境中,并会在环境中作出一些动作,这些动作会使得智能体获得一些奖励,这些奖励有正有负。强化学习的目标是...

笔记:强化学习入门:SARSA 算法

SARSA 算法和 Q Learning算法是同一种强化学习基本算法。但是SARSA 算法采取了和Q Learning 不同的迭代更新策略。1 SARSA 算法SARSA 算法的更新步骤为:记录当前的state执行上一步选定的action 得到奖励reward 和 新的状态 new_state在new_state下 根据当前的Q函数 ,选定的要执行的不走new_actio...

Stable Diffusion 笔记一:网络结构拆解

VAE编码器的部分作用是将像素图片编码转为潜空间图片,SD在此潜空间图片上进行迭代生成,迭代后的图片再由VAE解码器部分转换成像素级图片。SD生成的图片是潜空间图片(Latent image)而不是直接使用的图片(Pixel image)。每一个数字转换成768维的向量。像素图片是正常使用的图片,通常包含主体的物体人物角色,和多余的部分空白背景等与主体无关的噪声。潜空间图片可以理解为是像素图片在高

文章图片
pytorch YoLOV3 源码解析 train.py

train.py总体分为三部分(不算import 库)初始的一些设定 + train函数 + main函数一 .import 相关torch.distributed 分布式训练torch.optim.lr_scheduler 学习率衰减二.初始设定1使用混合精度训练2预训练权重路径Python可跨平台使用,但win和linux 的路径分隔符是不同的(斜杠)。这里的os.sep会根据你所处的平台,自

#深度学习#神经网络
知识蒸馏,知识迁移

1 什么是知识蒸馏,知识迁移我们有一个训练好的教师网络Teacher Model 和 数据 和一个未训练好的学生网络Student Model。我们需要学生网络有着与教师网络相似的,相近的能力。实现的方式就是知识蒸馏,知识迁移。表现如图示:教师把知识传授给学生,学生学会了知识,就有和教师相似的能力。2 为什么要使用知识蒸馏,知识迁移项目实施通常会把模型部署到终端,然而终端的算力都是有限的。教师网络

#人工智能#计算机视觉#深度学习
GAN,DCGAN,cGAN,pix2pix,CycleGAN,原理简单理解

GANGAN,Generative Adversarial Networks, 意为对抗生成网络,原始的GAN是一种无监督学习方法,通过使用‘对抗’的思想来学习生成式模型,一旦训练完成后可以全新的数据样本。GAN原理我们可以把GAN理解为一个生成数据的工具,实际GA...

过拟合

index:- 机器学习中过拟合的概念- 抑制过拟合的方法过拟合过拟合:模型过于复杂,在训练集上面的拟合效果非常好 甚至可以达到损失为0  但是在测试集的拟合效果很不好欠拟合: 模型过于简单 在训练集和测试集的拟合的效果都不好例: sin曲线拟合 数据产生模型是由sin函数和噪声组成的。 这个随机生成的噪声满足正太分布 均值为0  方差:0.003的平方...

到底了