m0_55996694 个人主页

@m0_55996694

m0_55996694

2022-12-11 11:07:46 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

大模型训练与微调（8）——LoRA详解与示例

LoRA（Low-Rank Adaptation）是一种大模型参数高效微调的方法，核心思想是通过低秩矩阵分解，仅训练少量参数来适配下游任务，同时冻结原始模型参数

#语言模型 #自然语言处理 #算法 +2

Instruct-GPT中强化学习（RL）训练部分详解

Instruct-GPT在监督微调（SFT）模型的基础上，使用近端策略优化（PPO）算法进行强化学习微调。这一设计参考了Stiennon等人（2020）的研究，核心目标是让模型更好地遵循用户指令。

#人工智能 #语言模型

大模型 Function Call 的实现步骤及示例详解

大模型Function Call实现步骤：通过定义工具列表（如时间查询、天气查询），模型根据用户问题判断是否调用工具，生成标准化调用指令（含工具名、参数），执行工具后返回结果，最终整合为自然语言回答。代码示例展示了完整的流程，包括工具定义、模型判断、工具执行及结果整合。

#人工智能

Instrct-GPT 强化学习奖励模型 Reward modeling 的训练过程原理实例化详解

本文实例化详细解析了Instrct-GPT强化学习奖励模型的训练原理。主要亮点包括：1）采用捆绑式批次处理，同一prompt的多个响应共享上下文，仅需一次前向传播即可计算所有比较对，显著提升计算效率；2）通过人工标注的排序数据自动生成比较对，使用Pairwise Ranking Loss优化奖励差异，避免主观评分的不一致性；3）模型直接学习人类偏好的相对关系而非绝对分值，通过sigmoid函数将奖

#log4j #语言模型 #人工智能 +2

大模型训练与微调（1）——优化器选择总结

当前最新的大模型在优化器的选择上，主要结合了传统优化器的稳定性与新型优化器的效率优势。以下分为五个部分来介绍：一、AdamW优化器：成熟稳定的主流选择。二、Lion优化器：谷歌提出的高效替代方案。三、其他优化器的补充应用。四、优化器选择趋势与实验对比。五、未来发展方向。

#人工智能 #机器学习 #深度学习

大模型训练与微调（4）——Top-k 和 Top-p 采样策略介绍

在自然语言生成任务中，**Top-k** 和 **Top-p** 是两种广泛使用的采样策略，用于控制大模型生成结果的多样性与可靠性。它们通过动态筛选候选词的概率分布，避免生成低质量或不合逻辑的文本。以下从定义、数学原理、实际应用和对比分析四个方面详细解析这两种方法。

#自然语言处理 #深度学习 #算法 +2

大模型训练与微调（8）——LoRA详解与示例

LoRA（Low-Rank Adaptation）是一种大模型参数高效微调的方法，核心思想是通过低秩矩阵分解，仅训练少量参数来适配下游任务，同时冻结原始模型参数

#语言模型 #自然语言处理 #算法 +2

3 大语言模型预训练数据-3.2 数据处理-3.2.2 冗余去除——1.SimHash算法处理冗余信息的核心原理

SimHash是一种局部敏感哈希算法，主要用于文本去重和相似性检测。其核心原理是将文本分词并赋予权重后，通过加权哈希映射和向量聚合，生成固定长度的二进制指纹。相比传统哈希，SimHash能保留语义相似性——相似文本生成的哈希值汉明距离较小。算法流程包括：1)分词与权重计算；2)特征哈希与加权映射；3)向量聚合；4)二值化生成指纹；5)通过汉明距离判断相似性。优势在于时间复杂度低、抗噪声能力强，尤其

#算法

3 大语言模型预训练数据-3.2 数据处理-3.2.2 冗余去除——1.SimHash算法处理冗余信息的核心原理

#算法

大模型训练与微调（8）——LoRA详解与示例

LoRA（Low-Rank Adaptation）是一种大模型参数高效微调的方法，核心思想是通过低秩矩阵分解，仅训练少量参数来适配下游任务，同时冻结原始模型参数

#语言模型 #自然语言处理 #算法 +2

共 25 条

请选择