logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习2.1 MDP(Markov decision process)学习

本文介绍了马尔可夫决策过程(MDP)的基本概念与实现方法,重点讲解了价值迭代算法。MDP通过状态转移概率和奖励函数定义决策问题。文章提供了Python代码示例展示MDP的实现,包括状态转移、奖励计算等核心功能,并详细讲解了可视化方法。最后介绍了价值迭代算法的实现步骤,包括状态价值函数和动作价值函数的计算,给出了完整的伪代码和Python实现。通过测试案例验证了算法的正确性,为初学者理解MDP和价值

#学习
强化学习1.3 深度学习交叉熵方法

本文介绍了使用交叉熵方法(CEM)训练神经网络解决CartPole连续状态空间问题的实现过程。首先通过初始化环境和安装依赖库,确认环境运行正常。然后构建一个MLP分类器作为策略网络,通过生成游戏会话收集训练数据,记录状态-动作对和奖励。在深度交叉熵方法中,选择表现优异的状态和动作作为精英样本进行训练。整个流程将传统CEM方法扩展到神经网络中,通过概率采样动作实现探索,最终目标是训练网络模仿专家策略

#人工智能
强化学习2.2 MDP实践——Frozen lake

FrozenLake是OpenAI Gym中的经典强化学习环境,玩家需在网格世界中从起点移动到终点,避开洞穴。本文介绍了使用MDP(马尔可夫决策过程)解决该问题的方法:通过价值迭代算法计算最优状态价值函数,并推导最优策略。关键步骤包括:1)初始化4x4网格环境;2)定义价值迭代函数计算状态价值;3)基于状态价值确定最优动作。实验展示了智能体成功找到最优路径的过程,并通过可视化呈现状态价值分布和策略

#人工智能
配送算法5 Decision models for order fulfillment processes of online food delivery platforms

这是一篇综述类型的论文,系统梳理了在线外卖平台(ODP)实时配送运营中的各类问题,并对现有的运筹学模型进行分类。研究将ODP运营划分为“配送前”与“配送”两阶段,指出现有文献主要聚焦于后者(分单、路径、调度、发单)。建模方法以优化与机器学习并重,机器学习应用呈上升趋势;求解方法从传统算法/启发式转向问题专属的新颖方法;绩效指标体系亦日趋多元。综述统一术语、厘清研究脉络,为后续研究奠定基础。

#算法
强化学习1.1 使用Gymnasium库

本文介绍了使用Gymnasium库进行MountainCar环境强化学习的基础实践。首先通过初始化脚本自动安装依赖并创建虚拟显示,然后导入必要库并设置环境。文中详细说明了Gymnasium的三大主接口(reset、step、render)及其功能,并演示了如何通过手动编码策略控制小车。重点介绍了基于速度的简单策略设计:当速度为正时向右加速,否则向左加速。最后通过可视化展示了小车成功到达终点的过程,

#pygame
Xilinx Ubuntu环境下docker&Vitis AI 3.0基于GPU的环境安装

Xilinx Unbuntu环境下docker&Vitis AI基于GPU的环境安装

文章图片
#docker#人工智能#容器 +2
强化学习3-1 Q-learning学习

摘要:Q-learning是一种无模型强化学习算法,无需预先知道环境转移概率,仅通过与环境交互的(s,a,r,s')数据更新Q值。其核心优势在于直接学习状态-动作对的预期累积奖励,取代了对环境建模的需求。与有模型算法(如动态规划)不同,Q-learning仅需当前状态、可选动作、即时奖励和实际转移状态,通过试错学习适应未知环境。文中提供了强化学习框架代码,包含环境可视化、多智能体性能比较等功能,支

#人工智能
华为Altas 200DK A2 部署实战(三)基于Yolov8-pose自制数据集训练的模型导出onnx模型推理&预测

本文基于Yolov8-pose自制数据集训练的模型,导出onnx格式的模型,并实现了前处理、后处理模块的设计,通过原始pytorch模型推理模块进行验证,实现了利用onnx模型在PC端预测图片与预测摄像头输入视频的功能。

文章图片
#华为#目标检测
图像自回归生成(Auto-regressive image generation)实战学习(六)

本文介绍了一个基于Transformer的自回归图像生成模型实现方案。该方案通过四个关键步骤完成图像生成:1)使用Patch AutoEncoder和BSQ量化器将图像编码为离散token序列;2)训练Transformer模型学习token间空间关系;3)实现generate方法生成新token序列;4)将序列解码为PNG图像。文章详细展示了generate方法的实现代码和前向传播算法的调整,并

#回归#学习#数据挖掘
强化学习2.2 MDP实践——Frozen lake

FrozenLake是OpenAI Gym中的经典强化学习环境,玩家需在网格世界中从起点移动到终点,避开洞穴。本文介绍了使用MDP(马尔可夫决策过程)解决该问题的方法:通过价值迭代算法计算最优状态价值函数,并推导最优策略。关键步骤包括:1)初始化4x4网格环境;2)定义价值迭代函数计算状态价值;3)基于状态价值确定最优动作。实验展示了智能体成功找到最优路径的过程,并通过可视化呈现状态价值分布和策略

#人工智能
    共 39 条
  • 1
  • 2
  • 3
  • 4
  • 请选择