logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

DPO,PPO,GRPO的学习

PPO在线互动式优化,模型和环境(或 RM)实时交互产生奖励,通过优势估计和裁剪机制,逐步调整策略,适合 “没有现成标注、需要模型主动探索” 的场景(如机器人自主学习、从零训练的对话模型)。DPO离线偏好式优化,直接用现成的 “好坏回答对” 训练,通过对比概率比值让模型对齐偏好,还天然绑定参考模型防止退化,适合 “有大量人工 / AI 标注偏好数据、追求简单稳定” 的场景(如大模型对齐的量产阶段)

#学习#人工智能#深度学习
DPO,PPO,GRPO的学习

PPO在线互动式优化,模型和环境(或 RM)实时交互产生奖励,通过优势估计和裁剪机制,逐步调整策略,适合 “没有现成标注、需要模型主动探索” 的场景(如机器人自主学习、从零训练的对话模型)。DPO离线偏好式优化,直接用现成的 “好坏回答对” 训练,通过对比概率比值让模型对齐偏好,还天然绑定参考模型防止退化,适合 “有大量人工 / AI 标注偏好数据、追求简单稳定” 的场景(如大模型对齐的量产阶段)

#学习#人工智能#深度学习
DPO,PPO,GRPO的学习

PPO在线互动式优化,模型和环境(或 RM)实时交互产生奖励,通过优势估计和裁剪机制,逐步调整策略,适合 “没有现成标注、需要模型主动探索” 的场景(如机器人自主学习、从零训练的对话模型)。DPO离线偏好式优化,直接用现成的 “好坏回答对” 训练,通过对比概率比值让模型对齐偏好,还天然绑定参考模型防止退化,适合 “有大量人工 / AI 标注偏好数据、追求简单稳定” 的场景(如大模型对齐的量产阶段)

#学习#人工智能#深度学习
算法设计:伪代码

伪代码(Pseudocode):是一种非正式的,类似于英语结构的,用于描述模块结构图的语言。伪代码必须结构清晰、代码简单、可读性好,并且类似自然语言。2. 伪代码的规范:1.在伪代码中,每一条指令占一行。2.书写上的缩进表示程序中的分支结构,同一模块中的语句具有相同的缩进量,次一级模块的语句相对与其父级模块的语句缩进。3.在伪代码中,变量不需要声明,定义变量的语句不用写出来,但要在注释中给出。指令

文章图片
#算法#r语言#c语言
算法设计:搜索策略

搜索,无非就是找到东西。找东西的话,最先想到的无疑是穷举法:小时候玩的玩具···可以看到,这些看起来简单除暴的方法都可以写成一个树,搜索过程就是搜索树的过程。搜索一个树,可以有经典的深度优先和广度优先:使用队列的数据结构,不把子问题解决完不走下一步,显然是广度优先。使用栈的数据结构,一条路走到黑,显然是深度优先算法。这些感觉都很粗暴,有没有优化的方法?下节课再讲。...

文章图片
#算法#css
计算机视觉2:tensorflow的使用

别的不说,先上代码:import tensorflow.compat.v1 as tftf.disable_eager_execution()#保证sess.run()能够正常运行data1 = tf.constant(6)data2 = tf.Variable(2)init=tf.global_variables_initializer()#不自己初始化的原因:制作者有病with tf.Sess

文章图片
#tensorflow
多维特征输入,多层神经网络学习

首先对多维特征进行解释:如有一个y,他的值由8个x(x1,x2,x3~~)决定,那么x就有8个维度。我们的linear所作的事就是y=wx+b,其中每一个量都是向量,因此可以处理多维度数据。如x有8个维度,y有一个维度,那么可以写成self.linear=torch.nn.Linear(8,1)内部过程就是:y(N*1),x(N*8)(表示y一维,x8维,总共有N个数据),那么w就是(8*1),矩

文章图片
#python
DroidBot: A Lightweight UI-Guided Test InputGenerator for Android论文学习

DroidBot就是之前用过的那个自动截图程序。那我很熟悉了,快速读完这篇论文。brain默认使用深度优先探索,当然用户也可以使用自己的方法。可以看到它会分辨当前页面,以页面作为状态,点击等动作作为事件。这玩意支持各种输入(点击,滑动,输入文本)

文章图片
#学习
DroidBot: A Lightweight UI-Guided Test InputGenerator for Android论文学习

DroidBot就是之前用过的那个自动截图程序。那我很熟悉了,快速读完这篇论文。brain默认使用深度优先探索,当然用户也可以使用自己的方法。可以看到它会分辨当前页面,以页面作为状态,点击等动作作为事件。这玩意支持各种输入(点击,滑动,输入文本)

文章图片
#学习
计算机组成原理:补码的乘法运算

首先与上次提到的原码的乘法做对比:由于补码乘法的符号位也要加入运算,所以说最后还要再多来一次乘法。结果的符号是通过计算天然地得到的。例子:因为多了一个辅助位,ACC和X也要加一位,这样正好可以用双符号位。总结:...

文章图片
#蓝桥杯#线性代数#职场和发展
    共 23 条
  • 1
  • 2
  • 3
  • 请选择