
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
RoPE改进的核心 =扩展上下文窗口 + 提升长距离区分度,以上三种方法是实现这两个目标的“入门级工具”。从“一刀切”到“精细化”:针对不同维度、不同任务设计专属的RoPE策略;从“静态”到“动态”:RoPE参数随输入特性自适应调整,提升模型通用性;从“文本”到“多模态”:RoPE成为跨领域的位置编码标准,推动多模态模型发展。
KV Cache = 大模型的“历史信息缓存池”,核心作用是复用已计算结果,降低推理阶段的计算成本,提升生成速度。对用户:生成速度更快,对话更流畅(不用等半天);对开发者:降低推理成本(减少GPU计算时间),提升部署效率;对大模型:是自回归模型实现“实时交互”的关键技术(没有KV Cache,大模型无法快速响应)。
从“规模至上”到“效率优先”:Densing Law、ParScale等新定律将主导未来1-2年的AI发展从“三维扩展”到“多维协同”:上下文、模态、推理等新维度加入,形成更复杂的缩放网络从“经验规律”到“理论科学”:Scaling Law将与信息论、神经科学深度融合,建立坚实理论基础从“单一模型”到“系统工程”:Scaling Law将扩展到模型训练的全流程,包括数据治理、硬件优化、分布式系统设
残差连接就是给模型加了一条“信息捷径”,把原始输入直接加到输出上,既防止深层训练崩溃,又不让模型丢了基础信息。残差连接通过yxFxyxFx的逐元素加和,让梯度能直接反向传播(避免梯度消失),同时让模型学习特征增量,是Transformer实现深层堆叠的核心技术。
Pre-LN是“先调味再炒菜”,提前稳住食材状态,深层堆叠也不容易翻车;Post-LN是“先炒菜再调味”,浅层还行,深层就容易炒糊——实验的核心就是看谁在“炒很多遍”后还能保持好味道。通过控制变量法,对比不同层数下Pre/Post-LN的损失曲线、梯度范数和模型效果,可验证Pre-LN通过提前标准化特征分布,显著提升深层Transformer的训练稳定性,而Post-LN在深层时易出现梯度发散问题
Encoder:双向自注意力,专注理解输入,输出语义特征;Decoder:掩码自注意力+编码器-解码器注意力,专注生成输出,实现语义对齐。
BatchNorm是“全班一起标准化”,依赖别人;LayerNorm是“自己跟自己比”,独立自主。Transformer处理的句子长短不一,用LayerNorm更灵活、更稳定!LayerNorm在单个样本的特征维度做归一化,不依赖批次统计量,完美适配Transformer的变长序列、padding和小batch训练场景,同时保留token的个性化特征,更利于自注意力机制学习。
多头注意力是**“分角度看问题,再汇总”**,比“用一个大角度硬看”看得更准、学得更轻松!多头注意力通过**“维度拆分→并行学习→结果融合”**的策略,在不增加计算复杂度的前提下,让模型能捕捉多类型的依赖关系,同时缓解维度灾难,提升训练稳定性和效果。
对输入向量(纯文本写法):Softmaxziezi∑j1nezji12nSoftmaxzi∑j1nezjezii12n纯文本兼容版:分子:对单个得分做指数运算(保证非负)分母:所有得分指数的总和(做归一化,让结果之和=1)







