赤赤赤赤赤赤个人主页

@qq_27846147

赤赤赤赤赤赤

2022-11-08 18:51:24 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【更新中】【自用】大模型八股

直接偏好优化，是一种从人类偏好中直接学习策略的强化学习算法，常用于基于人类反馈的强化学习（RLHF）。与传统的RLHF方法（如PPO）不同，DPO绕过了显式的奖励模型建模步骤，直接利用偏好数据优化策略，简化了训练流程并提升了稳定性。但随之的代价就是，更为频繁的CPU，GPU交互，极大增加了训练推理的时间开销。具体点说，DeepSpeed将当前时刻，训练模型用不到的参数，缓存到CPU

#机器学习 #nlp #gpt-3

数据结构期末复习（第七章图）

数据结构期末复习（第七章图）文章目录数据结构期末复习（第七章图）Part 1、知识点总结1.图的基本概念1.1 图的定义1.2 图的基本术语1.3 完全图1.4 稠密图、稀疏图1.5 子图1.6 路径和路径长度1.7 回路或环1.8 连通、连通图和连通分量1.9 强连通图和强连通分量1.10 生成树、生成森林：1.11 权和网1.12 注意2　图的存储结构2.1 邻接矩阵表示法（数组表示）2.

3. 汉化，打开Zotero软件后，左上角File -> Settings，里面搜索Language，选择简体中文。目前装了chartero和Translate for Zotero，用来简单可视化以及翻译一下。2. 运行win的安装包，不要装在C盘。首先贴一下可用的链接。

到底了