logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习笔记(3)-时序差分更新算法

时序差分更新算法和回合更新算法一样都是利用经验数据进行学习,其区别在于时序差分更新不必等到回合结束,可以用现有的价值估计值来更新。因此时序差分更新既可用于回合制任务,也可用于连续性任务。同策时序差分更新从给定策略的情况下动作价值函数的定义出发,我们可以得到:单步时序差分只需要采样一步,用来估计回报样本的值,这里表示有偏回报样本,与回合更新中由奖励计算得到的无偏回报样本相区别。基于以上分析,我们可以

#算法#机器学习#深度学习
用Tensorflow Agents实现强化学习DQN

在我之前的博客中强化学习笔记(4)-深度Q学习_gzroy的博客-CSDN博客,实现了用Tensorflow keras搭建DQN模型,解决小车上山问题。在代码里面,需要自己实现经验回放,采样等过程,比较繁琐。Tensorflow里面有一个agents库,实现了很多强化学习的算法和工具。我尝试用agents来实现一个DQN模型来解决小车上山问题。Tensorflow网上的DQN教程是解决CartP

#tensorflow#人工智能#python
强化学习的A3C算法应用(训练Atari游戏)

A3C算法的全称是Asynchronous Advantage Actor-Critic,异步优势执行者/评论者算法。这个算法和优势执行者/评论者算法的区别在于,在执行过程中不是每一步都更新参数,而是在回合结束后用整个轨迹进行更新。因此可以让多个Worker来进行轨迹的搜集和参数更新。每个执行者的更新都是异步的。这个算法与优势执行者/评论者算法相比,优点在于可以大大提高执行效率,因为对于策略更新算

#算法
Dify智能体集成MCP工具

介绍了如何在Dify智能体平台中调用MCP协议的服务

文章图片
#人工智能
QWEN 2.5模型结构解析与代码解读

对Qwen2.5大模型的代码进行研究

文章图片
#人工智能
花费7元训练自己的GPT 2模型

基于Pytorch实现的GPT 2模型,包括了数据集准备,训练,文本生成的全过程,并在AutoDL单租用GPU进行训练

文章图片
Dify 1.4版本无法配置模型的问题

介绍了如何解决Dify 1.4版本下无法配置模型的问题

利用阿里云来加速Kubeflow的安装

因为在用kubernetes的过程中经常遇到自己上传的镜像在拉取时遇到TLS timeout的问题,所以自己搭建一个私有的Docker仓库,记录一下过程。Docker仓库的建立docker pull registry启动镜像#创建数据存储的文件夹 ,将容器的/tem/registry目录映射到/docker/registrymkdir /docker/registry#启动容器,设定端口5000

Imagenet图像分类训练总结(基于Tensorflow 2.0实现)

最近看到AWS在18年年底的一篇论文(Bag of Tricks for Image Classification with Convolutional Neural Networks),是李沐和他的同事们总结的在图像分类中用到的一些技巧,可以提高分类的准确率,我也照着论文提到的技巧测试了一下,基于Tensorflow 2.1版本,搭建了一个Darknet53的模型(这也是大名鼎鼎的YOLOV3的

大模型强化学习之奖励模型的训练

详细讲述了如何根据InstructGPT论文来实现一个奖励模型

文章图片
#人工智能
    共 62 条
  • 1
  • 2
  • 3
  • 7
  • 请选择