自信的小螺丝钉个人主页

@qq_45791939

自信的小螺丝钉

2022-11-30 19:20:05 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【强化学习】信任区域策略优化（Trust Region Policy Optimization，TRPO）

摘要：本文介绍了信任区域策略优化(TRPO)算法，针对策略梯度法(PG)存在的数据利用率低、更新幅度不可控等问题进行了改进。TRPO通过引入信任区域概念，在优化目标中加入KL散度约束，确保新策略不会偏离旧策略太远。其核心在于使用重要性采样修正策略分布偏差，允许对同一批数据进行多次小批量更新，提高样本利用率。相比PG，TRPO能实现更稳定的策略优化和性能提升，为后续PPO算法的提出奠定了基础。

#AI

【大模型知识点】前置层归一化（Pre-Normalization）

现在很多大模型采用 **预归一化（Pre-Normalization）** 结构，如LLaMA、Qwen，主要是因为它能够显著提升模型的训练稳定性和收敛速度，同时缓解深层网络中的梯度消失或爆炸问题。

#AI #人工智能

【强化学习】同策略学习（On-Policy ）与异策略学习（Off-Policy ）

摘要：强化学习中的策略优化分为同策略（On-Policy）和异策略（Off-Policy）两类。同策略（如SARSA、PPO）直接通过目标策略与环境交互采集数据，样本分布一致但利用率低；异策略（如Q-Learning、DQN）则通过行为策略采集数据供目标策略学习，支持数据复用和离线训练，但需重要性采样解决分布偏差问题。前者训练稳定但效率低，后者样本利用率高但需处理分布差异。典型算法的选择取决于任

#AI #人工智能

【大模型知识点】位置编码——绝对位置编码，相对位置编码，旋转位置编码RoPE（附代码）

本文介绍了大模型中常见的绝对位置编码和相对位置编码方法，如transformer的正余弦位置编码，可学习位置编码，RoPE和ABiLi

#AI

【大模型手撕】pytorch实现LayerNorm, RMSNorm

本文介绍了两种常用的归一化方法LayerNorm和RMSNorm的实现原理及代码。LayerNorm通过对输入特征进行均值和方差归一化，并引入可训练参数γ和β来调整缩放和平移；RMSNorm则简化计算，仅使用均方根进行归一化。两者的PyTorch实现都包含可训练的缩放参数γ，并支持可选偏置项。LayerNorm适用于Transformer等场景，而RMSNorm计算更高效，常用于大模型优化。两种方

#pytorch #人工智能 #python

【大模型知识点】参数高效微调——Lora（Low-Rank Adaptation）及Lora变体

LoRA的核心思想是通过低秩分解来近似更新模型中的大参数矩阵。在微调过程中，原始的预训练模型参数被冻结，而通过引入两个小矩阵（A和B）来近似更新大矩阵。这种方法可以显著减少需要训练的参数量。

#AI

【大模型手撕】pytorch实现Self-Attention，Multi-Head-Attention，Grouped-Query-Attention

本文介绍了使用PyTorch实现Self-Attention，Multi-Head-Attention，Grouped-Query-Attention的代码

#人工智能 #pytorch #python

【强化学习】重要性采样

重要性采样（Importance Sampling）是一种**利用从一个分布中采样得到的数据来估计另一个分布的期望值**的方法，在蒙特卡洛方法中是一种常用的技巧，用于提高估计的效率和准确性。这种方法适用于目标分布难以直接采样，或者直接采样效率较低的情况。在强化学习中主要用于解决**异策略（Off-policy）学习**

#机器学习 #AI #人工智能

【大模型知识点】SwiGLU激活函数（附代码）

SwiGLU（Swish-Gated Linear Unit）是一种结合了Swish激活函数和GLU（Gated Linear Unit）机制的激活函数，广泛应用于现代大型语言模型（LLM）中，尤其是在Transformer架构的前馈网络（FFN）部分。

【大模型知识点】位置编码——绝对位置编码，相对位置编码，旋转位置编码RoPE（附代码）

本文介绍了大模型中常见的绝对位置编码和相对位置编码方法，如transformer的正余弦位置编码，可学习位置编码，RoPE和ABiLi

#AI

共 28 条

请选择