antkillerfarm 个人主页

@antkillerfarm

antkillerfarm

2022-12-05 16:03:47 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

深度学习（四十）——深度强化学习（3）Deep Q-learning Network（2）, DQN进化史

Deep Q-learning Network（续）Nature DQNDQN最早发表于NIPS 2013，该版本的DQN，也被称为NIPS DQN。NIPS DQN除了提出DQN的基本概念之外，还使用了《机器学习（三十三）》中提到的Experience Replay技术。2015年初，Deepmind在Nature上提出了改进版本，是为Nature DQN。它改进了Loss函数：L=(r...

深度学习（四十二）——深度强化学习（5）PPO, IMPALA, Hierarchical RL, OpenAI

PPO（Proximal Policy Optimization）PPO是2017年由OpenAI提出的一种基于随机策略的DRL算法，也是当前OpenAI的默认算法。PPO是一种Actor-Critic算法。它的主要改进在它的Actor部分。我们知道，Policy Gradient算法的训练过程中，始终存在着new Policy和old Policy这样一对矛盾。一方面，我们需要new P...

深度学习（三十八）——深度强化学习（1）教程

教程http://incompleteideas.net/sutton/book/the-book-2nd.html《Reinforcement Learning: An Introduction》，Richard S. Sutton和Andrew G. Barto著。注：Richard S. Sutton，加拿大计算机科学家，麻省大学阿姆赫斯特分校博士（1984年），阿尔伯塔大学教授。强...

深度学习（三十八）——深度强化学习（1）教程

机器学习（三十九）——博弈论（2）, Exploration & Exploitation

博弈论智猪博弈问题智猪博弈问题是John Nash于1950年提出的问题。在一个猪圈里养着一头大猪和一头小猪，在猪圈的一端放有一个猪食槽，在另一端安装有一个按钮，它控制着猪食的供应量。假定：猪按一下按钮，就有8单位猪食进槽，但谁按按钮就会首先付出2单位成本；若大猪先到食槽，则大猪吃到7单位食物，而小猪仅能吃到1单位食物；若小猪先到，则大猪和小猪各吃到4单位食物；若两猪同时到，则大猪...

深度学习（四十七）——Flow-based Model, Diffusion Model, Autoregressive Model

Flow-based Model, Diffusion Model, Autoregressive Model

#深度学习 #算法

深度学习（四十六）——StarGAN, InfoGAN, ProGAN, StyleGAN, BigGAN, FUNIT, CVAE

StarGAN论文：《StarGAN: Unified Generative Adversarial Networksfor Multi-Domain Image-to-Image Translation》CycleGAN的局限在于：对于两个Domain之间的变换，需要两个G网络。可以想象，当Domain的数量上升时，所需G网络的个数将呈指数级增长。如上图左半部分所示。StarGAN给出的办法是：

深度学习（二）——深度学习常用术语解释, Neural Network Zoo, CNN, Autoencoder

#深度学习

深度学习（四十四）——GAN的评估指标, DCGAN, WGAN-GP, CGAN, BEGAN & EBGAN

GAN的评估指标尽管可用的GAN模型非常多，但对它们的评估仍然主要是定性评估，通常需要借助人工检验生成图像的视觉保真度来进行。此类评估非常耗时，且主观性较强、具备一定误导性。鉴于定性评估的内在缺陷，恰当的定量评估指标对于GAN的发展和更好模型的设计至关重要。论文：《An empirical study on evaluation metrics of generative adversarial

深度学习（四十二）——深度强化学习（5）PPO, IMPALA, Hierarchical RL, OpenAI

共 48 条

请选择