logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【更新中】【自用】大模型八股

直接偏好优化,是一种​​从人类偏好中直接学习策略​​的强化学习算法,常用于基于人类反馈的强化学习(RLHF)。与传统的RLHF方法(如PPO)不同,DPO绕过了显式的奖励模型建模步骤,直接利用​​偏好数据​​优化策略,简化了训练流程并提升了稳定性。但随之的代价就是,更为频繁的CPU,GPU交互,极大增加了训练推理的时间开销。具体点说,DeepSpeed将当前时刻,训练模型用不到的参数,缓存到CPU

文章图片
#机器学习#nlp#gpt-3
数据结构期末复习(第七章 图)

数据结构期末复习(第七章 图)文章目录数据结构期末复习(第七章 图)Part 1、知识点总结1.图的基本概念1.1 图的定义1.2 图的基本术语1.3 完全图1.4 稠密图、稀疏图1.5 子图1.6 路径和路径长度1.7 回路或环1.8 连通、连通图和连通分量1.9 强连通图和强连通分量1.10 生成树、生成森林:1.11 权和网1.12 注意2 图的存储结构2.1 邻接矩阵表示法(数组表示)2.

#数据结构#c语言
【更新中】【自用】大模型八股

直接偏好优化,是一种​​从人类偏好中直接学习策略​​的强化学习算法,常用于基于人类反馈的强化学习(RLHF)。与传统的RLHF方法(如PPO)不同,DPO绕过了显式的奖励模型建模步骤,直接利用​​偏好数据​​优化策略,简化了训练流程并提升了稳定性。但随之的代价就是,更为频繁的CPU,GPU交互,极大增加了训练推理的时间开销。具体点说,DeepSpeed将当前时刻,训练模型用不到的参数,缓存到CPU

文章图片
#机器学习#nlp#gpt-3
【更新中】【自用】大模型八股

直接偏好优化,是一种​​从人类偏好中直接学习策略​​的强化学习算法,常用于基于人类反馈的强化学习(RLHF)。与传统的RLHF方法(如PPO)不同,DPO绕过了显式的奖励模型建模步骤,直接利用​​偏好数据​​优化策略,简化了训练流程并提升了稳定性。但随之的代价就是,更为频繁的CPU,GPU交互,极大增加了训练推理的时间开销。具体点说,DeepSpeed将当前时刻,训练模型用不到的参数,缓存到CPU

文章图片
#机器学习#nlp#gpt-3
Zotero7 从下载到安装

3. 汉化,打开Zotero软件后,左上角File -> Settings,里面搜索Language,选择简体中文。目前装了chartero和Translate for Zotero,用来简单可视化以及翻译一下。2. 运行win的安装包,不要装在C盘。首先贴一下可用的链接。

文章图片
到底了