julia点c 个人主页

@xl160917219

julia点c

2022-06-28 15:24:25 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Q-learning

Q-learningQ-learning也是采用Q表格的方式存储Q值（状态动作价值），决策部分与Sarsa是一样的，采用ε-greedy方式增加探索。Q-learning跟Sarsa不一样的地方是更新Q表格的方式。Sarsa是on-policy的更新方式，先做出动作再更新。Q-learning是off-policy的更新方式，更新learn()时无需获取下一步实际做出的动作next_action，

#leetcode #数据结构 #算法

到底了