logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习------Qlearning算法

Q learning算法是一种的强化学习算法,Q是quality的缩写,Q函数 Q(state,action)表示在状态state下执行动作action的quality, 也就是能获得的Q value是多少。算法的目标是最大化Q值,通过在状态state下所有可能的动作中选择最好的动作来达到最大化期望reward。Q learning算法使用Q table来记录不同状态下不同动作的预估Q值。

文章图片
#算法#python#开发语言
强化学习------PPO算法

PPO算法之所以被提出,根本原因在于在处理连续动作空间时取值抉择困难。取值过小,就会导致深度强化学习收敛性较差,陷入完不成训练的局面,取值过大则导致新旧策略迭代时数据不一致,造成学习波动较大或局部震荡。除此之外,因为在线学习的性质,进行迭代策略时原先的采样数据无法被重复利用,每次迭代都需要重新采样;同样地置信域策略梯度算法虽然利用重要性采样、共轭梯度法求解提升了样本效率、训练速率等,但在处理函数的

文章图片
#算法#自然语言处理
强化学习------DDPG算法(附pytorch代码)

算法是DeepMind团队提出的一种专门用于解决连续控制问题的在线式(on-line)深度强化学习算法,它其实本质上借鉴了算法里面的一些思想。本文将会介绍其基本原理,并实现DDPG算法来训练游戏的例子。

文章图片
#算法#pytorch#人工智能
Transformer---自注意力机制Self-Attention

如今是大模型的时代,我们在网络上使用到的AI工具,例如:chatGPT、文生图、图生图、TTS都结合了Ai大模型,大模型的底层原理是架构,架构的重点就是自注意力机制,如果能够掌握架构就掌握到了80%了解自注意力机制之前,我们先了解一下什么是注意力机制当人类观察事物时,往往会选择性地关注较为重要的信息,这种现象称为注意力机制。例如下方的袋鼠图片,我们更专注的是袋鼠本身,而不是它周围的绿色的草。

文章图片
#transformer#深度学习#人工智能
强化学习------DDPG算法(附pytorch代码)

算法是DeepMind团队提出的一种专门用于解决连续控制问题的在线式(on-line)深度强化学习算法,它其实本质上借鉴了算法里面的一些思想。本文将会介绍其基本原理,并实现DDPG算法来训练游戏的例子。

文章图片
#算法#pytorch#人工智能
vue3+ts封装axios以及解决跨域问题

前端请求后端数据时,会用到axios,但是如果不将axios封装好,会导致代码冗余求头能统一处理便于接口的统一管理解决回调地狱配置拦截器,给不同的实例配置不同的拦截器,支持以对象形式接受多个拦截器配置因此,在这里记录一下axios的封装过程。

文章图片
#typescript
Hadoop分布式集群搭建教程

大数据课程需要搭建Hadoop分布式集群,在这里记录一下搭建过程。

文章图片
#分布式#hadoop#大数据
pytorch学习之实现代码在GPU上运行

当模型太大,或者参数太多的情况下,为了加快训练速度,经常会使用GPU来进行训练。2、把模型参数和input数据转化为cuda的支持类型。是深拷贝,data是取值,是浅拷贝。的效果和data的相似,但是。3、在GPU上计算结果也为。1、判断GPU是否可用。的数据类型,需要转化为。

文章图片
#pytorch#学习#人工智能
大模型幻觉问题如何解决?

大模型幻觉问题(AI Hallucination),指的是大型语言模型在生成文本时,产生事实不准确、逻辑不一致或完全虚构的内容,尽管这些内容看似合理且有说服力,但实际上并不反映真实世界的知识或数据。这种现象通常发生在模型没有足够的背景信息、推理能力不足、或者从训练数据中学习到的知识不完全时。尽管大模型在生成自然语言方面表现出了出色的能力,但它们并不具备真正的理解能力,因此可能会“幻觉”出不存在的事

文章图片
#人工智能#机器学习#深度学习
强化学习------DQN算法

DQN,即深度Q网络(),是指基于深度学习的Q-Learing算法。Q-Learing算法维护一个Q-table,使用表格存储每个状态s下采取动作a获得的奖励,即状态-价值函数Q(s,a),这种算法存在很大的局限性。在现实中很多情况下,强化学习任务所面临的状态空间是连续的,存在无穷多个状态,这种情况就不能再使用表格的方式存储价值函数。为了解决这个问题,我们可以用一个函数Q(s,a;w)来近似动作-

文章图片
#算法
    共 42 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择