Catherine_he_ye 个人主页

@Catherine_he_ye

Catherine_he_ye

2023-04-05 14:54:54 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

谈起AlphaGo,来看其中的强化学习知识点

谈及AlphaGo中的强化学习知识

#深度学习 #人工智能

深度强化学习基础：策略学习

深度强化学习基础：策略学习王树森深度强化学习基础：策略学习No.1 Policy Network当有无数个状态和无数个动作时，不可能将每一个状态和动作概率记录在一张表里，这样就无法直接算策略函数，所以得做函数近似，寻出来一个函数来近似策略函数。当用神经网络近似时，…No.2 Policy-Based Reinforcement Learning 策略学习策略学习的目标：改进θ，使J(θ)越大越好。

#深度学习

谈起AlphaGo,来看其中的强化学习知识点

谈及AlphaGo中的强化学习知识

#深度学习 #人工智能

深度强化学习的基本概念

Terminology（术语）in RL王树森的B站强化学习视频No.1 stateand action状态和动作state：状态，action：动作，Agent（智能体）：动作的发起者.No.2 policy策略记为π函数policy：根据观测到的状态做出的决策来控制agent运动数学上，policy的π函数定义为概率密度函数。policy function π：(s,a)➡[0,1]: π(a

#深度学习

深度强化学习基础：价值学习

强化学习基础：价值学习王树森深度强化学习基础：价值学习No.1 Deep Q-Network (DQN)DQN 是一个价值学习的方法，用一个神经网络去近似Q*函数。DQN 的输入是s，w为神经网络的参数，输出是对每一个动作a的打分。怎么训练DQN呢？最常用的是TD算法。No.2 Temporal Difference (TD) LearningTD算法即使不完成旅程，也能更新参数。No.3 TD

2021年春-算法课我与作业题库的爱恨情仇我可没记住这个简朴的提交网站：http://47.99.179.148/有一个很蠢的坦白，我以为这个简陋的网站，提交时不会允许我们用algorithm库，所有排序我都复制一遍快排，所以当我发现可以用时，之前的冗长代码也没有继续管他，所以看上去比较蠢。这题我愣是记住了它的题号1007，我还长江七号呢，也可能是自己傻里巴巴的，longlong可以解决的，还以为

#算法 #动态规划 #贪心算法

到底了