简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
深度学习中常见的几个基础概念 1. Linear regression : Linear regression 对监督学习问题来说, 是最简单的建模形式. 上图蓝色点表示 training data point, 红色的线表示用于拟合训练数据的线性函数. 线性函数的总的形式为: 在代码中表示这个模型, 可以将其定义为 单列的向量 (a s...
A Recipe for Training Neural NetworksAndrej Karpathy blog2019-04-2709:37:05This blog is copied from:https://karpathy.github.io/2019/04/25/recipe/Some few weeks ago Iposteda ...
深度学习课程笔记(七):模仿学习(imitation learning)2017.12.10 本文所涉及到的 模仿学习,则是从给定的展示中进行学习。机器在这个过程中,也和环境进行交互,但是,并没有显示的得到 reward。在某些任务上,也很难定义 reward。如:自动驾驶,撞死一人,reward为多少,撞到一辆车,reward 为多少,撞到小动物,reward...
深度增强学习前沿算法思想CSDN作者: Flood Sung2017-02-16 09:34:29举报阅读数:3361作者:Flood Sung,CSDN博主,人工智能方向研究生,专注于深度学习,增强学习与机器人的研究。责编:何永灿,欢迎人工智能领域技术投稿、约稿、给文章纠错,请发送邮件至...
Policy Gradient Algorithms2019-10-0217:37:47This blog is from:https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.htmlAbstract: In this post, we are going to l...
Proximal Policy Optimization AlgorithmsUpdated on2019-09-1416:15:59Paper:https://arxiv.org/pdf/1707.06347.pdfTensorFlow Code from OpenAI:https://github.com/openai/baselinesPyTo...