
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Deep Q-learning Network(续)Nature DQNDQN最早发表于NIPS 2013,该版本的DQN,也被称为NIPS DQN。NIPS DQN除了提出DQN的基本概念之外,还使用了《机器学习(三十三)》中提到的Experience Replay技术。2015年初,Deepmind在Nature上提出了改进版本,是为Nature DQN。它改进了Loss函数:L=(r...
PPO(Proximal Policy Optimization)PPO是2017年由OpenAI提出的一种基于随机策略的DRL算法,也是当前OpenAI的默认算法。PPO是一种Actor-Critic算法。它的主要改进在它的Actor部分。我们知道,Policy Gradient算法的训练过程中,始终存在着new Policy和old Policy这样一对矛盾。一方面,我们需要new P...
教程http://incompleteideas.net/sutton/book/the-book-2nd.html《Reinforcement Learning: An Introduction》,Richard S. Sutton和Andrew G. Barto著。注:Richard S. Sutton,加拿大计算机科学家,麻省大学阿姆赫斯特分校博士(1984年),阿尔伯塔大学教授。强...
教程http://incompleteideas.net/sutton/book/the-book-2nd.html《Reinforcement Learning: An Introduction》,Richard S. Sutton和Andrew G. Barto著。注:Richard S. Sutton,加拿大计算机科学家,麻省大学阿姆赫斯特分校博士(1984年),阿尔伯塔大学教授。强...
博弈论智猪博弈问题智猪博弈问题是John Nash于1950年提出的问题。在一个猪圈里养着一头大猪和一头小猪,在猪圈的一端放有一个猪食槽,在另一端安装有一个按钮,它控制着猪食的供应量。假定:猪按一下按钮,就有8单位猪食进槽,但谁按按钮就会首先付出2单位成本;若大猪先到食槽,则大猪吃到7单位食物,而小猪仅能吃到1单位食物;若小猪先到,则大猪和小猪各吃到4单位食物;若两猪同时到,则大猪...
Flow-based Model, Diffusion Model, Autoregressive Model
StarGAN论文:《StarGAN: Unified Generative Adversarial Networksfor Multi-Domain Image-to-Image Translation》CycleGAN的局限在于:对于两个Domain之间的变换,需要两个G网络。可以想象,当Domain的数量上升时,所需G网络的个数将呈指数级增长。如上图左半部分所示。StarGAN给出的办法是:
深度学习(二)——深度学习常用术语解释, Neural Network Zoo, CNN, Autoencoder
GAN的评估指标尽管可用的GAN模型非常多,但对它们的评估仍然主要是定性评估,通常需要借助人工检验生成图像的视觉保真度来进行。此类评估非常耗时,且主观性较强、具备一定误导性。鉴于定性评估的内在缺陷,恰当的定量评估指标对于GAN的发展和更好模型的设计至关重要。论文:《An empirical study on evaluation metrics of generative adversarial
PPO(Proximal Policy Optimization)PPO是2017年由OpenAI提出的一种基于随机策略的DRL算法,也是当前OpenAI的默认算法。PPO是一种Actor-Critic算法。它的主要改进在它的Actor部分。我们知道,Policy Gradient算法的训练过程中,始终存在着new Policy和old Policy这样一对矛盾。一方面,我们需要new P...