gzroy 个人主页

@gzroy

gzroy

2022-12-07 21:00:29 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习笔记(3)-时序差分更新算法

时序差分更新算法和回合更新算法一样都是利用经验数据进行学习，其区别在于时序差分更新不必等到回合结束，可以用现有的价值估计值来更新。因此时序差分更新既可用于回合制任务，也可用于连续性任务。同策时序差分更新从给定策略的情况下动作价值函数的定义出发，我们可以得到：单步时序差分只需要采样一步，用来估计回报样本的值，这里表示有偏回报样本，与回合更新中由奖励计算得到的无偏回报样本相区别。基于以上分析，我们可以

#算法 #机器学习 #深度学习

用Tensorflow Agents实现强化学习DQN

在我之前的博客中强化学习笔记(4)-深度Q学习_gzroy的博客-CSDN博客，实现了用Tensorflow keras搭建DQN模型，解决小车上山问题。在代码里面，需要自己实现经验回放，采样等过程，比较繁琐。Tensorflow里面有一个agents库，实现了很多强化学习的算法和工具。我尝试用agents来实现一个DQN模型来解决小车上山问题。Tensorflow网上的DQN教程是解决CartP

#tensorflow #人工智能 #python

强化学习的A3C算法应用（训练Atari游戏）

A3C算法的全称是Asynchronous Advantage Actor-Critic，异步优势执行者/评论者算法。这个算法和优势执行者/评论者算法的区别在于，在执行过程中不是每一步都更新参数，而是在回合结束后用整个轨迹进行更新。因此可以让多个Worker来进行轨迹的搜集和参数更新。每个执行者的更新都是异步的。这个算法与优势执行者/评论者算法相比，优点在于可以大大提高执行效率，因为对于策略更新算

#算法

Dify智能体集成MCP工具

介绍了如何在Dify智能体平台中调用MCP协议的服务

对Qwen2.5大模型的代码进行研究

基于Pytorch实现的GPT 2模型，包括了数据集准备，训练，文本生成的全过程，并在AutoDL单租用GPU进行训练

Dify 1.4版本无法配置模型的问题

介绍了如何解决Dify 1.4版本下无法配置模型的问题

利用阿里云来加速Kubeflow的安装

因为在用kubernetes的过程中经常遇到自己上传的镜像在拉取时遇到TLS timeout的问题，所以自己搭建一个私有的Docker仓库，记录一下过程。Docker仓库的建立docker pull registry启动镜像#创建数据存储的文件夹，将容器的/tem/registry目录映射到/docker/registrymkdir /docker/registry#启动容器，设定端口5000

Imagenet图像分类训练总结（基于Tensorflow 2.0实现）

最近看到AWS在18年年底的一篇论文（Bag of Tricks for Image Classification with Convolutional Neural Networks），是李沐和他的同事们总结的在图像分类中用到的一些技巧，可以提高分类的准确率，我也照着论文提到的技巧测试了一下，基于Tensorflow 2.1版本，搭建了一个Darknet53的模型（这也是大名鼎鼎的YOLOV3的

大模型强化学习之奖励模型的训练

详细讲述了如何根据InstructGPT论文来实现一个奖励模型

#人工智能

共 62 条

请选择