qq_73355475 个人主页

@qq_73355475

qq_73355475

2023-01-01 00:17:43 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

动手学强化学习笔记-PPO算法

在微积分中，我们知道对于这个有约束条件的最大值，我们可以利用拉格朗日乘数法转化为无约束条件下的最大值，这个就是PPO-惩罚算法。取小是为了防止目标的变化过于剧烈，比如说原本没有进行截断的目标就已经满足了约束条件，如果此时再取到clip的边界值的话，那就会与上一个目标值的差距较大，目标变化过于明显，而两者取小就可以避免这种情况，从而保证了训练的稳定性。可见，作为TRPO的改进算法，PPO简化TRPO

#算法 #机器学习 #人工智能

动手学强化学习笔记-SAC算法

对于连续动作空间的环境，SAC算法的策略网络输出高斯分布的均值和标准差，但是根据高斯分布来采样动作的过程是不可导的（是因为高斯分布的采样是通过随机抽取标准正态分布（也称为高斯分布的变量）加上平均值和标准差的乘积得到的。而在某个最优动作比较确定的状态小，熵的取值就可以小一点。这个公式是指通过最小化动作分布的KL散度来改进策略，括号中的右半部分表示基于当前值函数和归一化因子的指数型动作分布，通过最小化

#机器学习 #人工智能

解决Vue+ElementUI容器无法铺满网页的问题

通过调整html，body以及el-container容器的样式来解决无法铺满页面的问题

#vue.js #elementui #javascript

深度学习笔记——锚框

目标检测算法通常会在输入图像中采样大量的区域，然后判断这些区域中是否包含我们感兴趣的目标，并调整区域边界从而更准确地预测目标的真实边界框不同的模型使用的区域采样方法可能不同。这里我们介绍其中的一种方法：以每个像素为中心，生成多个缩放比和宽高比（aspect ratio）不同的边界框。这些边界框被称为锚框。

#目标跟踪 #人工智能 #计算机视觉 +2

动手学强化学习笔记-SAC算法

#机器学习 #人工智能

深度学习笔记——锚框

#目标跟踪 #人工智能 #计算机视觉 +2

深度学习笔记——锚框

#目标跟踪 #人工智能 #计算机视觉 +2

到底了