
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
在强化学习(Reinforcement Learning, RL)中,智能体通过与环境的交互来学习一个策略,以最大化长期累积回报。然而,传统的强化学习算法在优化回报时往往不考虑智能体行为的安全性,导致在训练或部署过程中可能出现不安全的行为。**安全强化学习(Safe Reinforcement Learning,Safe RL)**正是在此背景下提出的,它旨在在优化回报的同时确保智能体的行为符合某

分层强化学习(Hierarchical Reinforcement Learning, HRL)通过将复杂问题分解为更小的子问题,显著提高了强化学习算法在解决高维状态空间和长期目标任务中的效率。Option-Critic架构是分层强化学习中一种非常有影响力的方法,专门用于自动发现和优化子策略(称为“Option”)。它是在经典的Options框架基础上提出的,用来处理分层决策问题,特别是可以在没有

演员评论家,Actor-Critic算法是强化学习领域的一种重要方法,结合了“演员”(Actor)和“评论家”(Critic)两个部分,它结合了值函数估计和策略优化的优点。在理解其背景时,需要从强化学习的演化历史、策略梯度方法的局限性以及如何通过值函数辅助优化策略展开。文章用一个生活中的比喻来说明它的原理。

将图神经网络(GNN)与深度强化学习(DRL)相结合。新的DRL+GNN体系结构能够在任意网络拓扑图上学习、操作和生成。图神经网络(Graph Neural Networks,GNN)是一种新型的神经网络,用于对图结构信息进行操作。它们的基本形式是将一些初始状态与图中的不同元素相关联,然后结合这些元素在图中的相互关系。迭代算法更新状态元素并使用最终状态产生输出.

Conservative Q-Learning (CQL) 是由Sergey Levine及其团队于2020年提出的一种针对离线强化学习的算法。CQL旨在解决离线强化学习中的两个主要问题:分布偏移(Distributional Shift) 和 过度乐观的值函数估计(Overestimation of Q-Values)。CQL通过对Q值的保守约束,确保学习到的策略更为稳健,避免过度依赖于离线数据

双延迟深度确定性策略梯度算法,TD3(Twin Delayed Deep Deterministic Policy Gradient)是强化学习中专为解决连续动作空间问题设计的一种算法。TD3算法的提出是在深度确定性策略梯度(DDPG)算法的基础上改进而来,用于解决强化学习训练中存在的一些关键挑战。

模型驱动的深度学习方法显然保留了一些模型驱动方法的优势(其确定性与驱动性)同时也避免了必须精确建模的缺点。它同时也兼备了深度学习方法强大的学习能力,而又克服了网络拓扑结构选择的困难。这使得深度学习方法的可设计性和可预测性变成可能,并且在实际应用中很好地平衡了通用性和相关性之间的关系。指出模型驱动的方法和数据驱动的方法二者之间并非相对的关系。

小编也是看了B站大佬的人工智能学习路线,然后在这里记录,并梳理一下自己的学习路线,然后选择目前最适合自己的学习阶段和将要学习的内容。大佬的视频链接我将它放在了下面,有和我一样初学者可以去看看视频。小编自己也看了许多博主的一些建议和看法,最后总结出来了适合小编自身的学习方式和学习流程。小编的学习是从机器学习开始,主要就是听B站吴恩达教授的机器学习课程(也可以尝试先看看机器学习实战项目和实战书籍)等学

本文介绍了动态A*(D*)路径规划算法及其Python实现。D算法是A的改进版本,适用于动态环境中机器人路径规划,能够通过增量更新高效处理障碍物变化。文章详细阐述了D的工作原理,包括反向搜索、局部更新和优先队列机制,并提供了完整的Python代码实现,包含地图建模、状态处理和动画可视化功能。该算法广泛应用于机器人导航、自动驾驶和无人机领域,具有实时性强、计算效率高等优点,但也存在实现复杂、内存消耗

本文系统介绍了安全强化学习(SafeRL)的发展与应用,重点阐述了可证明安全强化学习(ProvablySafeRL)的三种核心技术:动作替换、动作投影和动作掩码。文章梳理了该领域从早期探索到深度安全强化学习的发展历程,并分析了各类方法的优缺点与适用场景。研究通过倒立摆、无人机悬停等实验验证了这些技术的安全性,其中动作替换表现最佳。当前挑战包括高维状态验证、Sim2Real安全差距和多智能体协同等问








