logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

PPO- BipedalWalkerHardcore-v3

作为 Gym 中最硬核的机器人控制任务之一,BipedalWalkerHardcore-v3 对强化学习算法的鲁棒性提出了严峻考验。其训练曲线在后期呈现明显的高方差特性,这也使其成为剖析 PPO 参数细节与调试策略的理想案例。我们将以此为切入点,记录一次完整的调参与优化实战。

#人工智能#算法
【PyTorch][chapter 28][李宏毅深度学习][Diffusion Model-3]

生成模型里面发展: AE->VAE->GAN ->WGAN -> Diffusiong本篇我们重点是推导一下Diffusion 模型用的3个公式:下面红色的是用到了VAE重采样的原理。

文章图片
#人工智能
机器学习-Ridge 岭回归

前言:当alpha 值为0,求解过程和最小二乘法是一样的优点:可以防止矩阵不可逆惩罚某个维度权重系数过高一 岭回归原理输入:m个样本,n个维度: 标签值模型其中w 为权重系数 [n,1]求解:w...

文章图片
【PyTorch][chapter 25][李宏毅深度学习][ CycleGAN]【实战】

参数配置是通过argparse 实现的,这样通过google colab 调试的时候。文件目录:options\train_options.py。CycleGAN 是先训练生成器G, 再训练鉴别器D。论文中直接提供了GitHub 的代码下载地址。GAN 模型是先训练鉴别器D, 再训练生成器G。主要定义了生成器,鉴别器的网络结构。6:训练和测试代码。4: network代码。define_G生成器。

文章图片
#深度学习#pytorch#人工智能
迪杰斯特拉(Dijikstra)算法_机器学习

前言:迪杰斯特拉(Dijkstra)算法是典型最短路径算法,用于计算一个节点到其他节点的最短路径。它的主要特点是以起始点为中心向外层层扩展(广度优先搜索思想),直到扩展到终点为止。因为在Isomap 中要用到,这里简单介绍一下. 这里主要结合有相同图结束,无向图是对称矩阵目录1: 算法流程2:算法实现...

强化学习【value iterration】【python]

值迭代(Value Iteration)是解决马尔可夫决策过程(MDP)的经典动态规划算法。其核心基于,通过迭代方式求解最优价值函数。1.2矩阵形式V(s)r(s,a)通过采取行动a目的是找到最优策略使得状态值V最大通过contraction mapping 理论,可知道最优状态值可以通过迭代更新求解。

#算法
【PyTorch][chapter 15][李宏毅深度学习][Neighbor Embedding-LLE]

和传统的PCA,LDA等关注样本方差的降维方法相比,LLE关注于降维时保持样本局部的线性特征,由于LLE在降维时保持了样本的局部特征,它广泛的用于图像图像识别,高维数据可视化等领域。我们得到了高维的权重系数W,那么我们希望这些权重系数对应的线性关系在降维后的低维一样得到保持。要得到最小的d维数据集,我们需要求出矩阵M最小的d个特征值所对应的d个特征向量组成的矩阵。2)算法对最近邻样本数的选择敏感,

文章图片
#深度学习#pytorch
强化学习【Monte Carlo Learning][MC Basic 算法]

状态转移概率往往是未知的,在这种情况下,我们通常会采用蒙特卡洛(Monte Carlo)方法进行求解(该方法本质上是通过大数定律来计算数学期望)。在使用基于模型(model-based)的强化学习方法,特别是进行策略迭代时,我们通常会通过上述公式来求解。在 Policy iteration 的时候计算了 state-action 的均值(大数定律里面的切比雪夫不等式)值迭代(value-itera

#机器学习#人工智能
【强化学习】[page11]随机梯度下降的收敛模式

本章节并未介绍新的强化学习算法,而是重点讲解了随机逼近的基础知识,如Robbins-Monro(RM)算法和随机梯度下降(SGD)算法。与许多其他求根算法相比,RM算法的独特优势在于。研究证明,SGD算法实质上是RM算法的一个特例。均值估计作为贯穿本章的核心议题,其算法(6.4)成为本书介绍的首个随机迭代算法。我们通过分析表明,该算法可视为特殊形式的SGD算法。后续第七章将揭示时序差分学习算法具有

#人工智能#机器学习#深度学习
强化学习[page13]【chapter7】时序差分方法算法介绍

其次,式(7.1)中的TD算法仅能估计给定策略的状态值。尽管如此,本节介绍的TD算法非常基础,对理解本章其他算法至关重要。例如,本章介绍的所有算法都属于时序差分学习的范畴。为简洁起见,式(7.2)常被省略,但必须意识到若缺少该式,算法在数学上将不完整。TD 方法的一个特点是,它在每个时间步更新其值估计,而 MC 方法则要等到回合结束才更新。TD学习的核心思想是基于新获得的信息来修正当前对状态值的估

#算法
    共 58 条
  • 1
  • 2
  • 3
  • 6
  • 请选择