logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习之基于无模型的算法之基于值函数的深度强化学习算法

DQN是一种将Q学习与深度神经网络结合的方法,用于解决高维状态空间的问题。它以环境的状态作为输入,通过神经网络输出每个动作的 Q 值,智能体根据 Q 值选择动作。利用经验回放机制,将智能体在环境中采集到的样本(状态、动作、奖励、下一个状态)存储到经验回放缓冲区中,然后随机从缓冲区中采样一批样本进行学习,以降低样本之间的相关性,提高学习效率。目标Q值yt​计算为:rttγγaQstaθθstaDQN

文章图片
#算法
强化学习之理论基础

强化学习(Reinforcement Learning, RL)是机器学习的一个分支,核心目标是让智能体(Agent)在与环境(Environment)的交互中学习最优行为策略(Policy),以最大化累积奖励(Cumulative Reward)。表示从状态 s 出发遵循策略 π 的累积奖励期望。表示在状态 s 执行动作 a 后遵循策略 π 的累积奖励期望。二者联系:解释:状态价值是所有可能动作

文章图片
#机器学习
强化学习之理论基础

强化学习(Reinforcement Learning, RL)是机器学习的一个分支,核心目标是让智能体(Agent)在与环境(Environment)的交互中学习最优行为策略(Policy),以最大化累积奖励(Cumulative Reward)。表示从状态 s 出发遵循策略 π 的累积奖励期望。表示在状态 s 执行动作 a 后遵循策略 π 的累积奖励期望。二者联系:解释:状态价值是所有可能动作

文章图片
#机器学习
元强化学习

元强化学习结合了元学习和强化学习的概念,目标是构建一种能够在不同任务之间迅速适应的强化学习算法。在标准的强化学习任务中,算法往往只专注于单一任务,而元强化学习希望通过在一系列不同任务上进行训练,使得模型能够快速适应新的任务,类似于人类的学习方式。元学习,又称“学习的学习”,是一种让机器在不同任务之间快速适应和泛化的学习方式。传统机器学习模型通常需要大量数据进行训练,并且在遇到新任务时需要重新训练,

文章图片
#机器学习#深度学习#人工智能
实习日志2之windows上大模型(qwen2-7b)部署

ollama是大,对应docker,本质也是基于docker的容器化技术。

文章图片
#windows
强化学习之基于无模型的算法之蒙特卡洛方法

蒙特卡洛方法(Monte Carlo Method, MC)是强化学习中的一种无模型(Model-Free)学习算法,其核心思想是通过采样完整的交互轨迹(Episode),基于实际回报的平均值来估计状态价值或动作价值,从而逐步优化策略。与动态规划等基于模型的方法不同,蒙特卡洛方法不需要知道环境的转移概率和奖励函数,而是直接从与环境交互的经验中学习。蒙特卡洛方法的核心是通过来估计期望值。

文章图片
#算法
强化学习之基于无模型的算法之时序差分法

TD 方法通过来学习最优策略。它利用当前的估计值和下一个时间步的信息来更新价值函数,这种方法被称为“引导”(bootstrapping)。而不需要像蒙特卡罗方法那样等待一个完整的 episode 结束才进行更新,也不需要像动态规划方法那样已知环境的转移概率。以最基本的为例,状态价值函数Vs) 的更新公式为:其中:strtststγα对于动作价值函数 Q(s,a)Qsa),常见的 TD 更新方式如a

文章图片
#算法
SpringMVC框架(一)

SpringMVC的概述是一种基于Java实现的MVC设计模型的请求驱动类型的轻量级WEB框架。Spring MVC属于SpringFrameWork的后续产品,已经融合在Spring Web Flow里面。Spring 框架提供了构建 Web 应用程序的全功能 MVC 模块。使用 Spring 可插入的 MVC 架构,从而在使用Spring进行WEB开发时,可以选择使用Spring的Spring

#java#mvc
强化学习之理论基础

强化学习(Reinforcement Learning, RL)是机器学习的一个分支,核心目标是让智能体(Agent)在与环境(Environment)的交互中学习最优行为策略(Policy),以最大化累积奖励(Cumulative Reward)。表示从状态 s 出发遵循策略 π 的累积奖励期望。表示在状态 s 执行动作 a 后遵循策略 π 的累积奖励期望。二者联系:解释:状态价值是所有可能动作

文章图片
#机器学习
实习日志2之windows上大模型(qwen2-7b)部署

ollama是大,对应docker,本质也是基于docker的容器化技术。

文章图片
#windows
    共 13 条
  • 1
  • 2
  • 请选择