logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【强化学习】信任区域策略优化(Trust Region Policy Optimization,TRPO)

摘要:本文介绍了信任区域策略优化(TRPO)算法,针对策略梯度法(PG)存在的数据利用率低、更新幅度不可控等问题进行了改进。TRPO通过引入信任区域概念,在优化目标中加入KL散度约束,确保新策略不会偏离旧策略太远。其核心在于使用重要性采样修正策略分布偏差,允许对同一批数据进行多次小批量更新,提高样本利用率。相比PG,TRPO能实现更稳定的策略优化和性能提升,为后续PPO算法的提出奠定了基础。

#AI
【大模型知识点】前置层归一化(Pre-Normalization)

现在很多大模型采用 **预归一化(Pre-Normalization)** 结构,如LLaMA、Qwen,主要是因为它能够显著提升模型的训练稳定性和收敛速度,同时缓解深层网络中的梯度消失或爆炸问题。

#AI#人工智能
【强化学习】同策略学习(On-Policy )与异策略学习(Off-Policy )

摘要: 强化学习中的策略优化分为同策略(On-Policy)和异策略(Off-Policy)两类。同策略(如SARSA、PPO)直接通过目标策略与环境交互采集数据,样本分布一致但利用率低;异策略(如Q-Learning、DQN)则通过行为策略采集数据供目标策略学习,支持数据复用和离线训练,但需重要性采样解决分布偏差问题。前者训练稳定但效率低,后者样本利用率高但需处理分布差异。典型算法的选择取决于任

#AI#人工智能
【大模型知识点】位置编码——绝对位置编码,相对位置编码,旋转位置编码RoPE(附代码)

本文介绍了大模型中常见的绝对位置编码和相对位置编码方法,如transformer的正余弦位置编码,可学习位置编码,RoPE和ABiLi

文章图片
#AI
【大模型手撕】pytorch实现LayerNorm, RMSNorm

本文介绍了两种常用的归一化方法LayerNorm和RMSNorm的实现原理及代码。LayerNorm通过对输入特征进行均值和方差归一化,并引入可训练参数γ和β来调整缩放和平移;RMSNorm则简化计算,仅使用均方根进行归一化。两者的PyTorch实现都包含可训练的缩放参数γ,并支持可选偏置项。LayerNorm适用于Transformer等场景,而RMSNorm计算更高效,常用于大模型优化。两种方

#pytorch#人工智能#python
【大模型知识点】参数高效微调——Lora(Low-Rank Adaptation)及Lora变体

LoRA的核心思想是通过低秩分解来近似更新模型中的大参数矩阵。在微调过程中,原始的预训练模型参数被冻结,而通过引入两个小矩阵(A和B)来近似更新大矩阵。这种方法可以显著减少需要训练的参数量。

文章图片
#AI
【大模型手撕】pytorch实现Self-Attention,Multi-Head-Attention,Grouped-Query-Attention

本文介绍了使用PyTorch实现Self-Attention,Multi-Head-Attention,Grouped-Query-Attention的代码

#人工智能#pytorch#python
【强化学习】重要性采样

重要性采样(Importance Sampling)是一种**利用从一个分布中采样得到的数据来估计另一个分布的期望值**的方法,在蒙特卡洛方法中是一种常用的技巧,用于提高估计的效率和准确性。这种方法适用于目标分布难以直接采样,或者直接采样效率较低的情况。在强化学习中主要用于解决**异策略(Off-policy)学习**

#机器学习#AI#人工智能
【大模型知识点】SwiGLU激活函数(附代码)

SwiGLU(Swish-Gated Linear Unit)是一种结合了Swish激活函数和GLU(Gated Linear Unit)机制的激活函数,广泛应用于现代大型语言模型(LLM)中,尤其是在Transformer架构的前馈网络(FFN)部分。

【大模型知识点】位置编码——绝对位置编码,相对位置编码,旋转位置编码RoPE(附代码)

本文介绍了大模型中常见的绝对位置编码和相对位置编码方法,如transformer的正余弦位置编码,可学习位置编码,RoPE和ABiLi

文章图片
#AI
    共 28 条
  • 1
  • 2
  • 3
  • 请选择