logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型训练——强化学习篇

马尔可夫性:未来只与当前状态有关,与过去无关。这意味着:只要知道当前状态,就可以做决策,不需要记住完整历史。马尔可夫链:满足马尔可夫性的随机过程序列。基于模型的强化学习:智能体先学习一个环境模型(状态转移 + 奖励函数),再利用这个模型进行规划或模拟。【基于模型的方法】数据 ──▶ 学习环境模型 P(s'|s,a), R(s,a) ──▶ 用模型规划最优策略【无模型的方法】数据 ──▶ 直接从经验

#深度学习#人工智能
昇腾-comfyui适配&推理

​省时方案:基于mindie环境搭建comfyui环境,因为mindie环境各个组件配套;

#深度学习
昇腾-mindie环境搭建

增加软件包可执行权限,{version}表示软件版本号,{arch}表示CPU架构,{soc}表示昇腾AI处理器的版本。初次安装先安装驱动再安装固件、覆盖安装或升级先安装固件在安装驱动;)(统信部分局点也验证过可行,不确定是否存在未知风险)检查:(版本型号需要配套,配套关系可在下载页面查询)部分组件可能强依赖用户是否为:HwHiAiUser。或者:lspci | grep d80。至此,mindi

#服务器#linux#java
3 昇腾OpenClaw多实例docker部署实战

1、OpenClaw 客户端容器:封装了 OpenClaw 应用逻辑,作为用户交互的前端代理,负责接收用户请求并将其转发至推理服务。2、大模型推理服务容器:封装了大模型推理引擎,作为后端服务,负责接收来自 OpenClaw 客户端的文本生成请求,并利用大语言模型进行高效推理。3、Docker Compose:作为容器编排引擎,负责定义、创建和管理包含多个 OpenClaw 实例的容器集群。

#docker#人工智能#深度学习
3 昇腾OpenClaw多实例docker部署实战

1、OpenClaw 客户端容器:封装了 OpenClaw 应用逻辑,作为用户交互的前端代理,负责接收用户请求并将其转发至推理服务。2、大模型推理服务容器:封装了大模型推理引擎,作为后端服务,负责接收来自 OpenClaw 客户端的文本生成请求,并利用大语言模型进行高效推理。3、Docker Compose:作为容器编排引擎,负责定义、创建和管理包含多个 OpenClaw 实例的容器集群。

#docker#人工智能#深度学习
3 昇腾OpenClaw多实例docker部署实战

1、OpenClaw 客户端容器:封装了 OpenClaw 应用逻辑,作为用户交互的前端代理,负责接收用户请求并将其转发至推理服务。2、大模型推理服务容器:封装了大模型推理引擎,作为后端服务,负责接收来自 OpenClaw 客户端的文本生成请求,并利用大语言模型进行高效推理。3、Docker Compose:作为容器编排引擎,负责定义、创建和管理包含多个 OpenClaw 实例的容器集群。

#docker#人工智能#深度学习
3 昇腾OpenClaw多实例docker部署实战

1、OpenClaw 客户端容器:封装了 OpenClaw 应用逻辑,作为用户交互的前端代理,负责接收用户请求并将其转发至推理服务。2、大模型推理服务容器:封装了大模型推理引擎,作为后端服务,负责接收来自 OpenClaw 客户端的文本生成请求,并利用大语言模型进行高效推理。3、Docker Compose:作为容器编排引擎,负责定义、创建和管理包含多个 OpenClaw 实例的容器集群。

#docker#人工智能#深度学习
九、 RL实战

Gymnasium(原OpenAI Gym)是强化学习的标准试验场│ 强化学习交互循环 ││ ││ 智能体(Agent) ──动作a──▶ 环境(Environment) ││ ▲ │ ││ │ ▼ ││ 观测o, 奖励r 下一状态s', 奖励r, 完成信号done ││ │env = gym.make("CartPole-v1") # 创建环境observation, info = env.re

#深度学习
八、强化学习在大模型训练中的应用

GRPO = Group Relative Policy Optimization(群体相对策略优化)不需要单独训练 Reward Model,而是用一组采样回答的相对比较来估计奖励。

#人工智能#机器学习#深度学习
三、动态规划与策略迭代

环境模型是对环境动态特性│ 环境模型 Environment Model ││ ││ 1️⃣ 状态转移函数 (Transition Function) ││ P(s'|s, a) = Pr(下一状态 | 当前状态, 采取的动作) ││ ││ 记忆口诀:【状态转移:给了首尾,定中间】 ││ s(当前) + a(动作) ──► s'(下一状态) ││ ││ 2️⃣ 奖励函数 (Reward Funct

#深度学习
    共 26 条
  • 1
  • 2
  • 3
  • 请选择