logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【强化学习】双延迟深度确定性策略梯度算法(TD3)详解

双延迟深度确定性策略梯度算法,TD3(Twin Delayed Deep Deterministic Policy Gradient)是强化学习中专为解决连续动作空间问题设计的一种算法。TD3算法的提出是在深度确定性策略梯度(DDPG)算法的基础上改进而来,用于解决强化学习训练中存在的一些关键挑战。

文章图片
#算法#人工智能#机器学习 +1
【强化学习】策略梯度---REINFORCE算法

REINFORCE 是一种策略梯度算法,用于强化学习中的策略优化问题。它的核心思想是直接优化策略,通过采样环境中的轨迹来估计梯度并更新策略。PG(Policy Gradient)算法是一个更大的算法框架,而 REINFORCE 是 PG 算法的一种具体实现。因此,比较两者的关键在于 PG 的普适性和 REINFORCE 的具体特性。

文章图片
#人工智能#算法#机器学习 +1
【MARL】多智能强化学习测试环境:SMAC、MPE、PettingZoo等

在多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)的研究和应用中,构建合适的环境来测试和评估算法是非常重要的。以下是一些常用的多智能体强化学习环境,它们涵盖了多种任务类型,如协作、对抗、竞争等,帮助研究者验证算法的效果。SMAC(StarCraft Multi-Agent Challenge)、 MPE(Multi-Agent Particle

文章图片
#深度学习#人工智能#机器学习
【强化学习】演员评论家Actor-Critic算法(万字长文、附代码)

演员评论家,Actor-Critic算法是强化学习领域的一种重要方法,结合了“演员”(Actor)和“评论家”(Critic)两个部分,它结合了值函数估计和策略优化的优点。在理解其背景时,需要从强化学习的演化历史、策略梯度方法的局限性以及如何通过值函数辅助优化策略展开。文章用一个生活中的比喻来说明它的原理。

文章图片
#人工智能#算法#python +1
【启发式算法】Dynamic A*(D*)算法详细介绍(Python)

本文介绍了动态A*(D*)路径规划算法及其Python实现。D算法是A的改进版本,适用于动态环境中机器人路径规划,能够通过增量更新高效处理障碍物变化。文章详细阐述了D的工作原理,包括反向搜索、局部更新和优先队列机制,并提供了完整的Python代码实现,包含地图建模、状态处理和动画可视化功能。该算法广泛应用于机器人导航、自动驾驶和无人机领域,具有实时性强、计算效率高等优点,但也存在实现复杂、内存消耗

文章图片
#人工智能#算法#机器学习 +2
数字视网膜与云视觉系统演进

高文院士分享了如何利用对神经网络的理解来改进包括城市大脑或智慧城市系统等现有云视觉系统方面存在的一些问题。高文院士等人从高级生命体视觉系统的进化历史中寻找灵感,在设计新的第二代城市大脑或者说云视觉系统时,在中间的视觉神经通道做工作。他们将这一想法称之为数字视网膜。

文章图片
#人工智能#深度学习#云计算 +1
【RL Latest Tech】分层强化学习:FeUdal Networks算法

FeUdal Networks(FuN)是一种分层强化学习(Hierarchical Reinforcement Learning, HRL)算法,由Google DeepMind团队提出。该算法的灵感来源于层级控制结构,将任务分解为高层目标和低层执行细节,从而提高强化学习在复杂环境中的效率。与传统的强化学习算法不同,FeUdal Networks将学习过程分为不同的层次,每个层次的角色不同,但都

文章图片
#算法#人工智能#机器学习 +1
【RL Latest Tech】分层强化学习:MAXQ分解算法

MAXQ分解是一种用于分层强化学习(Hierarchical Reinforcement Learning, HRL)的算法,由Thomas G. Dietterich提出。该算法通过将复杂的任务分解成更小的子任务来简化问题,并利用这些子任务来构建更复杂的策略。主要思想是将一个复杂的Markov决策过程(MDP)分解成一系列嵌套的子MDP,以便更容易解决。MAXQ算法引入了一种分层的结构,将原始任

文章图片
#算法#人工智能#机器学习 +1
【DRL】深度强化学习介绍

深度强化学习本文介绍:[Python] 深度Q网络(DQN)实现[Python] REINFORCE算法实现[Results] 运行结果随着深度学习的迅猛发展,深度强化学习(Deep Reinforcement Learning, DRL)将深度学习与强化学习相结合,使得处理高维状态空间成为可能。

文章图片
#人工智能#python#算法
【RL Latest Tech】元强化学习(Meta Reinforcement Learning)

元强化学习是一种提升智能体适应新任务能力的技术,它让智能体不仅能学习完成当前的任务,还能在面对新的任务或环境时更快地学会新的策略。与传统的强化学习不同,元强化学习关注如何学习得更快、更高效,即学习如何学习。它让智能体在多种任务之间迁移经验,以应对任务变化或环境变化。核心思想元强化学习的核心思想是通过一个“元层”对多个任务进行学习和优化。该元层不是直接学习如何执行任务,而是学习如何在给定的任务下快速

文章图片
#人工智能#算法#python
    共 105 条
  • 1
  • 2
  • 3
  • 11
  • 请选择