logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【强化学习学习笔记】强化学习简介

摘要:强化学习是机器学习的重要分支,其核心在于智能体通过与环境交互,基于奖励信号学习最优策略。关键要素包括奖励函数、序列决策、状态定义(马尔可夫性)和环境可观测性(完全/部分)。智能体由策略、价值函数和模型三大组件构成,可分为基于价值/策略/执行者-评论者等类型。强化学习面临三大核心权衡:学习与规划(环境已知性)、探索与利用(信息获取与收益)、预测与控制(策略评估与优化)。典型应用场景包括游戏AI

#学习
【科研学习记录】自适应动态规划(ADP)与强化学习(RL)理论入门

本文探讨了动态规划(DP)、自适应动态规划(ADP)和强化学习(RL)的核心思想及其相互关系。三者都旨在解决动态系统中的多步决策问题,通过贝尔曼方程将复杂问题分解为单步决策。文章首先介绍了状态、动作和回报三个核心概念,以及期望、递推关系和压缩映射等数学基础。重点分析了传统DP的局限性(模型依赖、维度灾难和离线计算),并详细阐述了ADP的改进方案:数据驱动、函数逼近和在线自适应。特别介绍了ADP的双

#学习#动态规划#算法
【强化学习学习笔记】马尔科夫决策过程

本文摘要: 本文系统介绍了强化学习的核心概念与马尔可夫决策过程。首先回顾强化学习特点(无监督、延迟奖励、序列决策等)和智能体-环境交互流程。重点讲解了马尔可夫过程(MP)、马尔可夫奖励过程(MRP)和马尔可夫决策过程(MDP)的递进关系,详细阐述了状态价值函数、动作价值函数、贝尔曼方程(期望方程和最优方程)等核心概念。最后总结了公式体系和易混淆点,强调MP→MRP→MDP的演进逻辑及策略评估与优化

#学习#交互
【物联网学习笔记】按键与LED

本文是STM32物联网开发中LED控制的学习笔记,主要涵盖GPIO配置、硬件连接原理和软件实现。硬件方面详细解析了LED低电平点亮的原理和限流电阻作用;软件部分通过STM32CubeMX配置时钟树(32MHz晶振→48MHz HCLK)、JTAG下载器和GPIO输出模式(推挽+上拉),并生成MDK工程。代码实现包括创建app.h/app.c文件编写LED控制函数,在main函数中调用并添加延时。关

#物联网#学习#嵌入式硬件 +1
【强化学习学习笔记】强化学习简介

摘要:强化学习是机器学习的重要分支,其核心在于智能体通过与环境交互,基于奖励信号学习最优策略。关键要素包括奖励函数、序列决策、状态定义(马尔可夫性)和环境可观测性(完全/部分)。智能体由策略、价值函数和模型三大组件构成,可分为基于价值/策略/执行者-评论者等类型。强化学习面临三大核心权衡:学习与规划(环境已知性)、探索与利用(信息获取与收益)、预测与控制(策略评估与优化)。典型应用场景包括游戏AI

#学习
【强化学习学习笔记】强化学习简介

摘要:强化学习是机器学习的重要分支,其核心在于智能体通过与环境交互,基于奖励信号学习最优策略。关键要素包括奖励函数、序列决策、状态定义(马尔可夫性)和环境可观测性(完全/部分)。智能体由策略、价值函数和模型三大组件构成,可分为基于价值/策略/执行者-评论者等类型。强化学习面临三大核心权衡:学习与规划(环境已知性)、探索与利用(信息获取与收益)、预测与控制(策略评估与优化)。典型应用场景包括游戏AI

#学习
【机器学习学习笔记】机器学习引言

本文用通俗易懂的方式解释了机器学习的基本概念。通过小狗学习捡飞盘的比喻,说明机器学习是让电脑通过大量数据训练获得决策能力。文章将人工智能、机器学习和深度学习比作"套娃"关系,并介绍了机器学习的四大类型:有标准答案的监督学习(分类和回归问题)、无标准答案的无监督学习(如聚类)、结合两者的半监督学习,以及通过试错升级的强化学习。最后强调机器学习是通过数据训练让电脑变聪明的方法,其中

#学习#机器学习
到底了