logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习(RL)的学习笔记

如果动作状态的空间是连续的,则使用Q表可能无法对这种空间进行表述,(连续状态的可能取值是无限多的),感性认识:表达了模型对规则的理解,(同时将reward函数进行可导化);Sarsa:使得sample()行为的reward的平均水平达到最大;其实Q-Learning的思想很简单,就跟把大象放进冰箱是差不多的,Q-Learning:使得maxQ()行为的reward的达到最大;量化Q的方法我们采用T

文章图片
#学习
《强化学习(第2版)》阅读笔记

2.9 关联搜索(上下文相关的赌博机) …2.7 基于置信度上界的动作选择 …1.7 强化学习的早期历史 …2.1 一个k臂赌博机问题 …2.5 跟踪一个非平稳问题 …1.4 局限性与适用范围 …1.5 扩展实例:井字棋 …2.2 动作-价值方法 …2.3 10臂测试平台 …2.8 梯度赌博机算法 …1.3 强化学习要素 …2.4 增量式实现 …2.6 乐观初始值 …2.10 本章小结 …1.6

《南溪的目标检测学习笔记》CNN调参笔记

1 致谢感谢赵老师的教导!

文章图片
Windows运维的学习笔记(Win11&Win10)

Keywords: Win, PowerShell, dir

文章图片
【校园网】EasyConnect提示“客户端版本与服务器不匹配”,导致循环更新安装

在安装网络中心提供的EasyConnect安装包后,提示“客户端版本与服务器不匹配”,但是在官网下载安装后还是提示“客户端版本与服务器不匹配”;

文章图片
#服务器#运维
舰船目标检测的学习笔记(legacy)

1 数据集收集DOTA数据集:遥感目标检测数据集https://captain-whu.github.io/DOTA/dataset.html

目标检测——模型效率的优化

1 模型选择可以选择简单的模型来降低计算量;2 剪枝

#目标检测
目标检测——夏侯南溪目标检测模型之输出信息显示

1 输出信息的格式化——str.format()函数对于输出信息的格式化,我们使用的是.format()函数;

目标检测——使用loss发现噪声数据

2 备注2.1 聚类算法中的outliers是怎么定义的呀,是按照一定半径画出决策边界,然后不属于任何一个类的点吗?我在优图交流群中进行了提问,记录如下:我:请问一下,聚类算法中的outliers是怎么定义的呀,是按照一定半径画出决策边界,然后不属于任何一个类的点吗?程昊老师:outlier的定义是由聚类算法确定的,不同的聚类方法对outlier的定义有所不同。ppt里用的是DB...

    共 144 条
  • 1
  • 2
  • 3
  • 15
  • 请选择