
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
时序差分更新算法和回合更新算法一样都是利用经验数据进行学习,其区别在于时序差分更新不必等到回合结束,可以用现有的价值估计值来更新。因此时序差分更新既可用于回合制任务,也可用于连续性任务。同策时序差分更新从给定策略的情况下动作价值函数的定义出发,我们可以得到:单步时序差分只需要采样一步,用来估计回报样本的值,这里表示有偏回报样本,与回合更新中由奖励计算得到的无偏回报样本相区别。基于以上分析,我们可以
在我之前的博客中强化学习笔记(4)-深度Q学习_gzroy的博客-CSDN博客,实现了用Tensorflow keras搭建DQN模型,解决小车上山问题。在代码里面,需要自己实现经验回放,采样等过程,比较繁琐。Tensorflow里面有一个agents库,实现了很多强化学习的算法和工具。我尝试用agents来实现一个DQN模型来解决小车上山问题。Tensorflow网上的DQN教程是解决CartP
A3C算法的全称是Asynchronous Advantage Actor-Critic,异步优势执行者/评论者算法。这个算法和优势执行者/评论者算法的区别在于,在执行过程中不是每一步都更新参数,而是在回合结束后用整个轨迹进行更新。因此可以让多个Worker来进行轨迹的搜集和参数更新。每个执行者的更新都是异步的。这个算法与优势执行者/评论者算法相比,优点在于可以大大提高执行效率,因为对于策略更新算
介绍了如何在Dify智能体平台中调用MCP协议的服务

对Qwen2.5大模型的代码进行研究

基于Pytorch实现的GPT 2模型,包括了数据集准备,训练,文本生成的全过程,并在AutoDL单租用GPU进行训练

介绍了如何解决Dify 1.4版本下无法配置模型的问题
因为在用kubernetes的过程中经常遇到自己上传的镜像在拉取时遇到TLS timeout的问题,所以自己搭建一个私有的Docker仓库,记录一下过程。Docker仓库的建立docker pull registry启动镜像#创建数据存储的文件夹 ,将容器的/tem/registry目录映射到/docker/registrymkdir /docker/registry#启动容器,设定端口5000
最近看到AWS在18年年底的一篇论文(Bag of Tricks for Image Classification with Convolutional Neural Networks),是李沐和他的同事们总结的在图像分类中用到的一些技巧,可以提高分类的准确率,我也照着论文提到的技巧测试了一下,基于Tensorflow 2.1版本,搭建了一个Darknet53的模型(这也是大名鼎鼎的YOLOV3的
详细讲述了如何根据InstructGPT论文来实现一个奖励模型
