logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习3-1 Q-learning学习

摘要:Q-learning是一种无模型强化学习算法,无需预先知道环境转移概率,仅通过与环境交互的(s,a,r,s')数据更新Q值。其核心优势在于直接学习状态-动作对的预期累积奖励,取代了对环境建模的需求。与有模型算法(如动态规划)不同,Q-learning仅需当前状态、可选动作、即时奖励和实际转移状态,通过试错学习适应未知环境。文中提供了强化学习框架代码,包含环境可视化、多智能体性能比较等功能,支

#人工智能
华为Altas 200DK A2 部署实战(三)基于Yolov8-pose自制数据集训练的模型导出onnx模型推理&预测

本文基于Yolov8-pose自制数据集训练的模型,导出onnx格式的模型,并实现了前处理、后处理模块的设计,通过原始pytorch模型推理模块进行验证,实现了利用onnx模型在PC端预测图片与预测摄像头输入视频的功能。

文章图片
#华为#目标检测
图像自回归生成(Auto-regressive image generation)实战学习(六)

本文介绍了一个基于Transformer的自回归图像生成模型实现方案。该方案通过四个关键步骤完成图像生成:1)使用Patch AutoEncoder和BSQ量化器将图像编码为离散token序列;2)训练Transformer模型学习token间空间关系;3)实现generate方法生成新token序列;4)将序列解码为PNG图像。文章详细展示了generate方法的实现代码和前向传播算法的调整,并

#回归#学习#数据挖掘
配送算法9 A GRASP algorithm for the Meal Delivery Routing Problem

这篇论文聚焦哥伦比亚外卖平台的“最后一公里”配送,提出基于 GRASP 的 MDRP 求解框架:动态整合骑手可用性、订单需求与地理位置,实现订单分配与路线优化。真实数据实验表明,GRASP 在解质量与计算速度间取得有利折中,较现有仿真优化方法在订单完成率和路径效率上均具竞争。

#算法
强化学习2.2 MDP实践——Frozen lake

FrozenLake是OpenAI Gym中的经典强化学习环境,玩家需在网格世界中从起点移动到终点,避开洞穴。本文介绍了使用MDP(马尔可夫决策过程)解决该问题的方法:通过价值迭代算法计算最优状态价值函数,并推导最优策略。关键步骤包括:1)初始化4x4网格环境;2)定义价值迭代函数计算状态价值;3)基于状态价值确定最优动作。实验展示了智能体成功找到最优路径的过程,并通过可视化呈现状态价值分布和策略

#人工智能
配送算法21 Real-Time Integrated Dispatching and Idle Fleet Steering with Deep Reinforcement Learning

维度主要证据启示① 预测价值战略版(15-min 需求预测)全面优于近视版“预测-优化”范式在实时外卖系统有效;预测质量直接决定战略决策上限② 派单策略RL 派单 vs. Nearest Idle- 骑手餐厅等待时间 ↓(时间效率纳入奖励)供需缺口 ↓(被动再平衡奖励奏效)接单数/ delivery 时间方差 ↓→ 更公平③ 重定位价值战略重定位加入后pickup 距离显著 ↓(网络布局自适应需求

#算法#人工智能
华为Altas 200DK A2 部署实战(四)华为Atlas 200I DK A2开发环境搭建(镜像,联网,例程)

本文介绍了截至2023年12月最新的华为Atlas200DK A2开发板合设开发环境的搭建方式。

文章图片
#华为#人工智能#linux
华为Altas 200DK A2 部署实战(五) 在Atlas 200 DK A2上部署Yolov8-pose姿态估计模型

本文在Atlas 200 DK A2上部署了Yolov8官方预训练的人体关键点检测模型,以及根据自制数据集训练的手部关键点检测模型,包含单张图片,摄像头视频帧,还有本地视频三种推理预测方式。

文章图片
#华为#目标检测
华为Altas 200DK A2 部署实战(五) 在Atlas 200 DK A2上部署Yolov8-pose姿态估计模型

本文在Atlas 200 DK A2上部署了Yolov8官方预训练的人体关键点检测模型,以及根据自制数据集训练的手部关键点检测模型,包含单张图片,摄像头视频帧,还有本地视频三种推理预测方式。

文章图片
#华为#目标检测
强化学习2.2 MDP实践——Frozen lake

FrozenLake是OpenAI Gym中的经典强化学习环境,玩家需在网格世界中从起点移动到终点,避开洞穴。本文介绍了使用MDP(马尔可夫决策过程)解决该问题的方法:通过价值迭代算法计算最优状态价值函数,并推导最优策略。关键步骤包括:1)初始化4x4网格环境;2)定义价值迭代函数计算状态价值;3)基于状态价值确定最优动作。实验展示了智能体成功找到最优路径的过程,并通过可视化呈现状态价值分布和策略

#人工智能
    共 35 条
  • 1
  • 2
  • 3
  • 4
  • 请选择