logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

VERL GRPO RL训练显存占用详情

在verl这样的分布式 RLHF 框架中,显存的占用划分为和。两个阶段不断交替,会形成阶段形的GPU使用样例。具体训练和生成的时候显存占用是哪些占用大头是一个需要仔细分析的问题。可以参考此图。

#算法
五分钟看懂attetion为什么要除以根号dk

dk\sqrt{d_k}dk​​除以dk\sqrt{d_k}dk​​就像是给注意力机制装了一个归一化调节器稳定方差:抵消维度dkd_kdk​增大带来的数值膨胀。激活梯度:让 Softmax 避开饱和区,维持梯度的流动性。加速收敛:更稳定的数值分布让模型在训练初期更容易找到优化方向。

#算法#人工智能
五分钟快速了解DPO

DPO 的出现将大模型的对齐从一个“强化学习问题”转化为了一个“有监督的分类问题”。它用极其简洁的数学手段实现了复杂的对齐目标,是目前工业界处理模型偏好学习的首选方案之一。

#机器学习#人工智能
LLM中的强化学习方法分类

在大型语言模型(LLM)的后训练(Post-training)阶段,强化学习(RL)已成为实现复杂推理和人类价值观对齐的核心范式。LLM的RL过程本质上是一个在极其庞大且离散的状态-动作空间(State-Action Space,即Token的自回归生成)中进行策略优化的过程。本文从五个核心技术维度对当前LLM领域的RL方法进行分类,并盘点具有代表性的主流及最新算法。

#开发语言#人工智能#机器学习
首次适应算法的模拟(C++实现)

当内存各分区中都无大小大于该作业的可用区时,判断空闲分区总和是否大于该作业的大小,若满足条件,则在紧凑后放入。设置内存总大小为1024KB,进入程序后有四种选项,插入作业请输入1,回收作业请输入0,紧凑请输入2, 查看内存信息请输入3,退出程序请输入4。插入一个名字为jincou的作业,大小为130KB,根据程序运行结果可以发现是经过了紧凑的,说明程序运行正确。此时已经产生了碎片,输入2,进行紧凑

文章图片
#c++#算法#数据结构
python pyinstaller打包教程(pycharm)

本人被pyinstaller折磨多次,遇上多次坑,终于总结出此条pyinstaller打包教程,小白无忧,帮你跳过所有坑。

文章图片
#python#pycharm#开发语言
《PyTorch深度学习实践》第十二课(循环神经网络RNN)

要把inputs和labels重新view,-1为自适应inputs的格式为(seqlen, batchsize, inputsize)lables的格式为 (seqlen,1)seqlen其实就是循环次数。

文章图片
#junit#java#myeclipse
深度学习titanic(初学)Kaggle刘二作业第八课

代码】深度学习titanic(初学)Kaggle刘二作业第八课。

文章图片
#大数据#pytorch#机器学习 +2
《PyTorch深度学习实践》第十三课(循环神经网络RNN高级版)

gru中因为序列长短不一,许多填充的是0,没必要参加运算,可以加速,使用 pack_padded_sequence。把为0的去除,其他的拼接在一起,但是他要求的是输入序列的长度递减,所以不行。其中output是上面的h0到hn,output是【hnf,hnb】双向,两边都走一遍,再拼接起来,起到了连接上下文的作用。返回一个PackedSquence object。接下来是横着取值,按照时间序列取值

文章图片
#深度学习#pytorch#rnn
量化套利策略

近三年,套利策略的表现持续优于股票中性和债券策略。但是究竟什么是量化套利呢?数据来源:朝阳永续套利策略的定义和核心逻辑简单来说,套利指的是当某种资产在同一市场或不同市场拥有两个价格时,以较低的价格买进资产,用较高的价格卖出,从而获取收益。比如小区超市的白菜要比批发市场的白菜卖的贵,那我们从批发市场进菜拿到小区来卖,去掉成本,就可以赚到其中的差价。套利策略成立的核心假设是一价定律:在竞争市场上,如果

文章图片
#人工智能#big data#大数据 +2
    共 20 条
  • 1
  • 2
  • 请选择