Vulcan_Q 个人主页

Vulcan_Q

2024-03-09 10:56:12 加入 DevPress

简介

该用户还未填写简介

未填写擅长的技术栈

暂无可提供的服务

本文Hi胜读强化学习基础的第四篇博客，主要学习记录了策略梯度中使用Baseline方法来降低动作价值函数的方差，提高收敛速度；并介绍了A2C方法，分析了其与Reinforce的联系与差别。

本文为强化学习基础的第三篇内容，主要记录了基于动态规划方法求解贝尔曼期望方程的迭代算法，以及相应的迭代策略评估、策略迭代、价值迭代内容

本文为深度强化学习基础的第五篇，介绍了从离散控制进阶到连续控制，分别介绍了确定策略梯度方法进行连续控制，以及使用随机策略进行连续控制

本篇博客主要介绍了图形处理的入门基本知识，相关的图像概念，以及空域图像增强的点运算部分

本文为强化学习基础的第二篇内容，主要围绕马尔可夫性质与马尔可夫奖励、决策过程展开，并通过回溯图等形式深入分析了贝尔曼方程与贝尔曼最优方程的组成与意义

本文是深度强化学习基础的第二篇，从AC算法的角度接入，并介绍了AlphaGo的训练流程以及其中涉及到的相关知识。

本篇为深度强化学习基础的第一篇，回顾并介绍了强化学习中的一些基本概念，并初步阐释了神经网络在策略学习与价值学习中的应用。

备考计算机三级嵌入式时的一些笔记，本篇主要介绍ARM指令相关的内容，以及与指令运行相关的ARM寻址方式等内容

本篇为计算机三级嵌入式备考自学笔记，主要介绍了常见的嵌入式系统的硬件结构组成，并介绍了嵌入式系统存储器的种类、区别于应用

共 27 条

请选择