kingcjh97 个人主页

@m0_64997730

kingcjh97

2023-08-14 17:13:19 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

大模型训练——强化学习篇

马尔可夫性：未来只与当前状态有关，与过去无关。这意味着：只要知道当前状态，就可以做决策，不需要记住完整历史。马尔可夫链：满足马尔可夫性的随机过程序列。基于模型的强化学习：智能体先学习一个环境模型（状态转移 + 奖励函数），再利用这个模型进行规划或模拟。【基于模型的方法】数据 ──▶ 学习环境模型 P(s'|s,a), R(s,a) ──▶ 用模型规划最优策略【无模型的方法】数据 ──▶ 直接从经验

省时方案：基于mindie环境搭建comfyui环境，因为mindie环境各个组件配套；

#深度学习

昇腾-mindie环境搭建

增加软件包可执行权限，{version}表示软件版本号，{arch}表示CPU架构，{soc}表示昇腾AI处理器的版本。初次安装先安装驱动再安装固件、覆盖安装或升级先安装固件在安装驱动；）（统信部分局点也验证过可行，不确定是否存在未知风险）检查：（版本型号需要配套，配套关系可在下载页面查询）部分组件可能强依赖用户是否为：HwHiAiUser。或者：lspci | grep d80。至此，mindi

#服务器 #linux #java

3 昇腾OpenClaw多实例docker部署实战

1、OpenClaw 客户端容器：封装了 OpenClaw 应用逻辑，作为用户交互的前端代理，负责接收用户请求并将其转发至推理服务。2、大模型推理服务容器：封装了大模型推理引擎，作为后端服务，负责接收来自 OpenClaw 客户端的文本生成请求，并利用大语言模型进行高效推理。3、Docker Compose：作为容器编排引擎，负责定义、创建和管理包含多个 OpenClaw 实例的容器集群。

#docker #人工智能 #深度学习

3 昇腾OpenClaw多实例docker部署实战

#docker #人工智能 #深度学习

3 昇腾OpenClaw多实例docker部署实战

#docker #人工智能 #深度学习

3 昇腾OpenClaw多实例docker部署实战

#docker #人工智能 #深度学习

九、 RL实战

Gymnasium（原OpenAI Gym）是强化学习的标准试验场│ 强化学习交互循环 ││ ││ 智能体(Agent) ──动作a──▶ 环境(Environment) ││ ▲ │ ││ │ ▼ ││ 观测o, 奖励r 下一状态s', 奖励r, 完成信号done ││ │env = gym.make("CartPole-v1") # 创建环境observation, info = env.re

#深度学习

八、强化学习在大模型训练中的应用

GRPO = Group Relative Policy Optimization（群体相对策略优化）不需要单独训练 Reward Model，而是用一组采样回答的相对比较来估计奖励。

#人工智能 #机器学习 #深度学习

共 27 条

请选择