
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要:本文介绍了信任区域策略优化(TRPO)算法,针对策略梯度法(PG)存在的数据利用率低、更新幅度不可控等问题进行了改进。TRPO通过引入信任区域概念,在优化目标中加入KL散度约束,确保新策略不会偏离旧策略太远。其核心在于使用重要性采样修正策略分布偏差,允许对同一批数据进行多次小批量更新,提高样本利用率。相比PG,TRPO能实现更稳定的策略优化和性能提升,为后续PPO算法的提出奠定了基础。
现在很多大模型采用 **预归一化(Pre-Normalization)** 结构,如LLaMA、Qwen,主要是因为它能够显著提升模型的训练稳定性和收敛速度,同时缓解深层网络中的梯度消失或爆炸问题。
摘要: 强化学习中的策略优化分为同策略(On-Policy)和异策略(Off-Policy)两类。同策略(如SARSA、PPO)直接通过目标策略与环境交互采集数据,样本分布一致但利用率低;异策略(如Q-Learning、DQN)则通过行为策略采集数据供目标策略学习,支持数据复用和离线训练,但需重要性采样解决分布偏差问题。前者训练稳定但效率低,后者样本利用率高但需处理分布差异。典型算法的选择取决于任
本文介绍了大模型中常见的绝对位置编码和相对位置编码方法,如transformer的正余弦位置编码,可学习位置编码,RoPE和ABiLi

本文介绍了两种常用的归一化方法LayerNorm和RMSNorm的实现原理及代码。LayerNorm通过对输入特征进行均值和方差归一化,并引入可训练参数γ和β来调整缩放和平移;RMSNorm则简化计算,仅使用均方根进行归一化。两者的PyTorch实现都包含可训练的缩放参数γ,并支持可选偏置项。LayerNorm适用于Transformer等场景,而RMSNorm计算更高效,常用于大模型优化。两种方
LoRA的核心思想是通过低秩分解来近似更新模型中的大参数矩阵。在微调过程中,原始的预训练模型参数被冻结,而通过引入两个小矩阵(A和B)来近似更新大矩阵。这种方法可以显著减少需要训练的参数量。

本文介绍了使用PyTorch实现Self-Attention,Multi-Head-Attention,Grouped-Query-Attention的代码
重要性采样(Importance Sampling)是一种**利用从一个分布中采样得到的数据来估计另一个分布的期望值**的方法,在蒙特卡洛方法中是一种常用的技巧,用于提高估计的效率和准确性。这种方法适用于目标分布难以直接采样,或者直接采样效率较低的情况。在强化学习中主要用于解决**异策略(Off-policy)学习**
SwiGLU(Swish-Gated Linear Unit)是一种结合了Swish激活函数和GLU(Gated Linear Unit)机制的激活函数,广泛应用于现代大型语言模型(LLM)中,尤其是在Transformer架构的前馈网络(FFN)部分。
本文介绍了大模型中常见的绝对位置编码和相对位置编码方法,如transformer的正余弦位置编码,可学习位置编码,RoPE和ABiLi








