qq_57565004 个人主页

@qq_57565004

qq_57565004

2023-10-22 16:54:24 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

prenorm和postnorm各有什么优劣，现在的主流大模型一般用哪种呢

摘要：Transformer的层归一化位置分为Post-LN和Pre-LN两种。Post-LN是原始结构，性能上限可能更高但训练不稳定，依赖精细调参；Pre-LN先归一化再处理，训练更稳定，适合深层模型。目前主流大模型（如GPT、Llama系列）普遍采用Pre-LN，因其能确保大规模训练稳定性，降低训练失败风险，尽管性能可能略逊于理想调参的Post-LN。Pre-LN的可靠性优势使其成为大模型的首

#人工智能 #transformer #语言模型 +4

BERT的中文分词与大模型分词的对比

中文BERT采用字符级分词，将汉字拆分为单字（如"苹果"→["苹","果"]），使用WordPiece时可能带子词标记（"##"）。现代大模型如GPT-3/4采用BPE算法，更倾向合并常见词；Qwen使用混合策略，LLaMA英文处理较好但中文仍多单字。核心差异在于BERT中文版基本按字分，而现代大模型会合并高频词（如&

#bert #中文分词 #人工智能

大模型再推理时分哪两个阶段，每个阶段的特点是什么呢

摘要：大语言模型推理分为预填充和解码两个阶段。预填充阶段并行处理用户提示，计算所有token的注意力并生成KV缓存，属于计算密集型操作。解码阶段则逐个自回归生成新token，频繁读写KV缓存，性能受限于内存带宽，生成速度较慢且固定。两个阶段的主要区别在于：预填充可并行计算整个提示但对输入长度敏感，解码则需串行处理但耗时稳定。优化KV缓存管理是提升解码效率的关键。

#人工智能 #深度学习 #transformer +2

解释一下稀疏语义召回，BGE-M3是怎么实现的

稀疏语义召回是一种融合关键词检索与语义理解的新型技术，兼具传统BM25的关键词匹配能力和向量搜索的语义理解优势。它通过大模型学习生成高维稀疏向量，动态计算词权重，实现上下文感知和语义联想。BGE-M3模型采用Transformer编码器+线性层的创新结构，通过ReLU函数筛选重要词项，形成保留关键语义特征的稀疏向量。这种设计既支持精确匹配又能理解语义关联，有效解决了传统方法在语义扩展和关键词保留方

#人工智能 #语言模型 #python +2

说一说大模型后训练的流程

大模型优化包含两个关键阶段：首先是监督微调(SFT)，使用高质量指令-回答数据对训练模型理解指令并生成初步响应；随后是基于人类反馈的强化学习(RLHF)，先训练奖励模型评估回答质量，再通过强化学习优化模型输出，使其更符合人类偏好。该方法显著提升了模型在有用性、诚实性和安全性方面的表现。

#机器学习 #人工智能 #算法

大模型灾难性的原因和缓解方法？

首先，可以简要解释什么是灾难性遗忘（Catastrophic Forgetting）。它指的是深度学习模型在学习新任务时，会显著遗忘之前已经学习过的旧任务的知识，导致在旧任务上的性能大幅下降的现象[1][2在持续学习或增量学习的场景中，这是一个关键的挑战[2。

#人工智能

深度学习中的损失函数都有哪些，大模型时代主要用的损失函数有哪些，中间有什么区别？

摘要：深度学习中的损失函数按任务类型分为回归（MSE、MAE等）、分类（交叉熵、Hinge等）和序列任务（CTC等）。大模型（如GPT、BERT）几乎统一采用带Label Smoothing的交叉熵损失，因其符合语言建模的概率本质，梯度稳定且泛化性强。Label Smoothing通过软化one-hot标签缓解过拟合，成为预训练阶段的主流选择。相比传统任务的定制化损失，大模型更注重通用性和可扩展性

#深度学习 #人工智能

讲一讲什么是重要性采样

重要性采样是一种蒙特卡洛方法，通过从易采样的建议分布中获取样本并加权，来估计目标分布下的期望值。该方法在大模型/NLP领域有广泛应用，包括语言模型评估、强化学习策略梯度、文本生成多样性控制等。改进方法包括自归一化采样、自适应采样等，可降低方差提升估计效率。该方法的核心在于选择合适建议分布，确保与目标分布差异不过大，以避免估计不稳定。

#人工智能 #深度学习 #机器学习

prenorm和postnorm各有什么优劣，现在的主流大模型一般用哪种呢

#人工智能 #transformer #语言模型 +4

说一说大模型后训练的流程

#机器学习 #人工智能 #算法

共 18 条

请选择