m0_72113198 个人主页

@m0_72113198

m0_72113198

2023-05-24 16:46:02 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

神经网络与深度学习第三周学习笔记

平台发布者支持语言易用性大规模训练能力定位PyTorchFacebookPython/C++★★★★优秀学术研究首选TensorFlowGoogle★★★优秀工业部署广泛KerasGooglePython★★★★★一般入门友好百度Python★★★良好中文生态完善MindSpore华为Python★★★良好昇腾硬件适配目前PyTorch因其动态图机制和易用性，已成为学术界的主流选择，约80%的研究

现实问题中通常无法直接获取MDP的状态转移概率P和奖励函数R，无模型强化学习直接从与环境交互的经验片段（episode）中学习值函数和策略，无需构建显式的环境模型。核心步骤：(1) 估计值函数；(2) 优化策略s0→a0Rs0s1→a1Rs1s2→⋯→sTs0a0Rs0s1a1Rs1s2→⋯→sT。

#学习

深度强化学习与控制第一周学习笔记

主题：马尔可夫决策过程、动态规划、无模型值函数估计（蒙特卡洛 / 时序差分）

#学习

到底了