logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

prenorm和postnorm各有什么优劣,现在的主流大模型一般用哪种呢

摘要:Transformer的层归一化位置分为Post-LN和Pre-LN两种。Post-LN是原始结构,性能上限可能更高但训练不稳定,依赖精细调参;Pre-LN先归一化再处理,训练更稳定,适合深层模型。目前主流大模型(如GPT、Llama系列)普遍采用Pre-LN,因其能确保大规模训练稳定性,降低训练失败风险,尽管性能可能略逊于理想调参的Post-LN。Pre-LN的可靠性优势使其成为大模型的首

#人工智能#transformer#语言模型 +4
BERT的中文分词与大模型分词的对比

中文BERT采用字符级分词,将汉字拆分为单字(如"苹果"→["苹","果"]),使用WordPiece时可能带子词标记("##")。现代大模型如GPT-3/4采用BPE算法,更倾向合并常见词;Qwen使用混合策略,LLaMA英文处理较好但中文仍多单字。核心差异在于BERT中文版基本按字分,而现代大模型会合并高频词(如&

#bert#中文分词#人工智能
大模型再推理时分哪两个阶段,每个阶段的特点是什么呢

摘要:大语言模型推理分为预填充和解码两个阶段。预填充阶段并行处理用户提示,计算所有token的注意力并生成KV缓存,属于计算密集型操作。解码阶段则逐个自回归生成新token,频繁读写KV缓存,性能受限于内存带宽,生成速度较慢且固定。两个阶段的主要区别在于:预填充可并行计算整个提示但对输入长度敏感,解码则需串行处理但耗时稳定。优化KV缓存管理是提升解码效率的关键。

#人工智能#深度学习#transformer +2
解释一下稀疏语义召回,BGE-M3是怎么实现的

稀疏语义召回是一种融合关键词检索与语义理解的新型技术,兼具传统BM25的关键词匹配能力和向量搜索的语义理解优势。它通过大模型学习生成高维稀疏向量,动态计算词权重,实现上下文感知和语义联想。BGE-M3模型采用Transformer编码器+线性层的创新结构,通过ReLU函数筛选重要词项,形成保留关键语义特征的稀疏向量。这种设计既支持精确匹配又能理解语义关联,有效解决了传统方法在语义扩展和关键词保留方

#人工智能#语言模型#python +2
说一说大模型后训练的流程

大模型优化包含两个关键阶段:首先是监督微调(SFT),使用高质量指令-回答数据对训练模型理解指令并生成初步响应;随后是基于人类反馈的强化学习(RLHF),先训练奖励模型评估回答质量,再通过强化学习优化模型输出,使其更符合人类偏好。该方法显著提升了模型在有用性、诚实性和安全性方面的表现。

#机器学习#人工智能#算法
大模型灾难性的原因和缓解方法?

首先,可以简要解释什么是灾难性遗忘(Catastrophic Forgetting)。它指的是深度学习模型在学习新任务时,会显著遗忘之前已经学习过的旧任务的知识,导致在旧任务上的性能大幅下降的现象[1][2在持续学习或增量学习的场景中,这是一个关键的挑战[2。

#人工智能
深度学习中的损失函数都有哪些,大模型时代主要用的损失函数有哪些,中间有什么区别?

摘要:深度学习中的损失函数按任务类型分为回归(MSE、MAE等)、分类(交叉熵、Hinge等)和序列任务(CTC等)。大模型(如GPT、BERT)几乎统一采用带Label Smoothing的交叉熵损失,因其符合语言建模的概率本质,梯度稳定且泛化性强。Label Smoothing通过软化one-hot标签缓解过拟合,成为预训练阶段的主流选择。相比传统任务的定制化损失,大模型更注重通用性和可扩展性

#深度学习#人工智能
讲一讲什么是重要性采样

重要性采样是一种蒙特卡洛方法,通过从易采样的建议分布中获取样本并加权,来估计目标分布下的期望值。该方法在大模型/NLP领域有广泛应用,包括语言模型评估、强化学习策略梯度、文本生成多样性控制等。改进方法包括自归一化采样、自适应采样等,可降低方差提升估计效率。该方法的核心在于选择合适建议分布,确保与目标分布差异不过大,以避免估计不稳定。

#人工智能#深度学习#机器学习
prenorm和postnorm各有什么优劣,现在的主流大模型一般用哪种呢

摘要:Transformer的层归一化位置分为Post-LN和Pre-LN两种。Post-LN是原始结构,性能上限可能更高但训练不稳定,依赖精细调参;Pre-LN先归一化再处理,训练更稳定,适合深层模型。目前主流大模型(如GPT、Llama系列)普遍采用Pre-LN,因其能确保大规模训练稳定性,降低训练失败风险,尽管性能可能略逊于理想调参的Post-LN。Pre-LN的可靠性优势使其成为大模型的首

#人工智能#transformer#语言模型 +4
说一说大模型后训练的流程

大模型优化包含两个关键阶段:首先是监督微调(SFT),使用高质量指令-回答数据对训练模型理解指令并生成初步响应;随后是基于人类反馈的强化学习(RLHF),先训练奖励模型评估回答质量,再通过强化学习优化模型输出,使其更符合人类偏好。该方法显著提升了模型在有用性、诚实性和安全性方面的表现。

#机器学习#人工智能#算法
    共 18 条
  • 1
  • 2
  • 请选择