
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
【从RL到DRL】深度强化学习基础(四)——策略梯度中的Baseline,Reinforce与A2C的对比
本文Hi胜读强化学习基础的第四篇博客,主要学习记录了策略梯度中使用Baseline方法来降低动作价值函数的方差,提高收敛速度;并介绍了A2C方法,分析了其与Reinforce的联系与差别。
【从RL到DRL】强化学习基础(三)——动态规划、小型网格世界中的随机策略评估
本文为强化学习基础的第三篇内容,主要记录了基于动态规划方法求解贝尔曼期望方程的迭代算法,以及相应的迭代策略评估、策略迭代、价值迭代内容

【从RL到DRL】深度强化学习基础(五)离散控制与连续控制——确定策略梯度方法(DPG)、使用随机策略进行连续控制
本文为深度强化学习基础的第五篇,介绍了从离散控制进阶到连续控制,分别介绍了确定策略梯度方法进行连续控制,以及使用随机策略进行连续控制

【视觉入门】——图形处理基础知识、BMP图像文件介绍、空域图像增强(点运算部分)——图像间变换、灰度变换、直方图变换
本篇博客主要介绍了图形处理的入门基本知识,相关的图像概念,以及空域图像增强的点运算部分

【从RL到DRL】强化学习基础(二)——马尔可夫决策过程与相关贝尔曼方程
本文为强化学习基础的第二篇内容,主要围绕马尔可夫性质与马尔可夫奖励、决策过程展开,并通过回溯图等形式深入分析了贝尔曼方程与贝尔曼最优方程的组成与意义
【从RL到DRL】深度强化学习基础(二)——Actor-Critic Methods中策略与价值网络机构以及算法迭代过程、实例分析——AlphaGo的训练过程、蒙特卡洛树初步
本文是深度强化学习基础的第二篇,从AC算法的角度接入,并介绍了AlphaGo的训练流程以及其中涉及到的相关知识。

【从RL到DRL】深度强化学习基础(一)——基本概念、价值学习(DQN与TD算法)、策略学习与策略梯度
本篇为深度强化学习基础的第一篇,回顾并介绍了强化学习中的一些基本概念,并初步阐释了神经网络在策略学习与价值学习中的应用。

【计算机三级嵌入式】考前学习笔记(二)——基本寻址方式、ARM指令集与伪指令介绍
备考计算机三级嵌入式时的一些笔记,本篇主要介绍ARM指令相关的内容,以及与指令运行相关的ARM寻址方式等内容
【计算机三级嵌入式】考试自学笔记(三)——嵌入式系统硬件组成、嵌入式处理芯片以及存储器介绍
本篇为计算机三级嵌入式备考自学笔记,主要介绍了常见的嵌入式系统的硬件结构组成,并介绍了嵌入式系统存储器的种类、区别于应用
【计算机三级嵌入式】考试自学笔记(四)——I/O接口与设备、典型嵌入式处理芯片:S3C2410以及嵌入式系统的外部通信接口
【计算机三级嵌入式】考试自学笔记(四)——I/O接口与设备、典型嵌入式处理芯片:S3C2410以及嵌入式系统的外部通信接口