
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
我整理好的1000+面试题,请看或者最好将URL复制到浏览器中打开,不然可能无法直接打开好了,我们今天针对上面的问题,
我整理好的1000+面试题,请看或者最好将URL复制到浏览器中打开,不然可能无法直接打开好了,我们今天针对上面的问题,
我整理好的1000+面试题,请看或者最好将URL复制到浏览器中打开,不然可能无法直接打开好了,我们今天针对上面的问题,
PPO(Proximal Policy Optimization)是一种主要基于on-policy的强化学习算法,同时融合了部分off-policy特性。其核心设计要求使用当前策略收集的数据进行更新(on-policy特点),但通过重要性采样机制允许有限次数据重用(off-policy特性)。PPO采用裁剪或KL散度约束来限制策略更新幅度,确保新策略不会偏离原始数据分布太远。这种混合设计既保持了o
本文详细推导了三种KL散度估计器(k1,k2,k3)的构造过程。k1基于蒙特卡洛直接估计,无偏但高方差;k2利用二阶泰勒展开近似,低方差但有偏;k3通过控制变量法结合前两者的优点,实现了无偏且低方差的估计。推导过程涉及期望估计、泰勒展开和控制变量法等数学工具,清晰展示了各估计器的原理与特性。
PPO算法本质上是on-policy方法,但通过重要性采样等技术部分借鉴了off-policy思想。它要求使用当前策略收集数据(on-policy特性),但允许对同一批数据进行多次梯度更新(off-policy特性),并通过裁剪或KL惩罚限制更新幅度。相比完全off-policy算法(如DQN、SAC),PPO不能随意使用历史数据,数据时效性要求更高。这种设计在保持on-policy稳定性的同时,
一个很有意思的回答:大模型的Loss Landscape 是由多个“Basin”(盆地)组成的,而不是一个平滑的曲面。如果微调(Fine-Tuning)的优化方向 偏离了Basic Capacity Basin,就可能容易训崩掉,虽然训崩的概率不大。,但少数方向(如过大的学习率、错误的优化目标)会让模型“滑出”Basin。内,SFT 通常不会损害模型的整体能力,只是调整其行为分布。在这个Basin
摘要: 本文介绍了LightningAttention技术在解决传统注意力机制O(n²)复杂度问题上的演进。传统SoftmaxAttention难以处理长序列,线性注意力通过激活函数替换降低复杂度至O(nd²)。重点分析了LightningAttention-2的创新:采用分块策略,将注意力分为块内(传统左乘+掩码)和块间(缓存KV右乘)处理,首次实现因果模型的线性复杂度。该技术通过SRAM优化和
摘要:本文总结了Transformer模型在推理时超出训练长度范围的外推方法,主要包括ALiBi、内插法、NTK-Aware和Yarn等四种主流技术。ALiBi通过添加不可学习的偏置实现外推,内插法通过缩放位置编码适应长文本,NTK-Aware采用动态调整的进制转换策略,而Yarn则结合了灵活进制设计和温度调节。这些方法各有特点,旨在解决模型在长序列推理时的性能下降问题。文章详细分析了每种方法的原
PPO算法本质上是on-policy方法,但通过重要性采样等技巧部分借鉴了off-policy思想。它要求使用当前策略生成的数据进行更新(on-policy特性),但允许有限次重用旧数据(off-policy特性),并通过裁剪或KL惩罚来约束更新幅度。与完全off-policy算法(如SAC、DQN)相比,PPO不能任意重用历史数据,而是需要在保持on-policy稳定性的前提下,有限提升数据效率







