logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型面试题41:RoPE改进的核心目标与常见方法

RoPE改进的核心 =扩展上下文窗口 + 提升长距离区分度,以上三种方法是实现这两个目标的“入门级工具”。从“一刀切”到“精细化”:针对不同维度、不同任务设计专属的RoPE策略;从“静态”到“动态”:RoPE参数随输入特性自适应调整,提升模型通用性;从“文本”到“多模态”:RoPE成为跨领域的位置编码标准,推动多模态模型发展。

#开发语言#transformer#深度学习 +3
大模型面试题39:KV Cache 完全指南

KV Cache = 大模型的“历史信息缓存池”,核心作用是复用已计算结果,降低推理阶段的计算成本,提升生成速度。对用户:生成速度更快,对话更流畅(不用等半天);对开发者:降低推理成本(减少GPU计算时间),提升部署效率;对大模型:是自回归模型实现“实时交互”的关键技术(没有KV Cache,大模型无法快速响应)。

#transformer#自然语言处理#深度学习 +2
大模型面试题37:Scaling Law完全指南

从“规模至上”到“效率优先”:Densing Law、ParScale等新定律将主导未来1-2年的AI发展从“三维扩展”到“多维协同”:上下文、模态、推理等新维度加入,形成更复杂的缩放网络从“经验规律”到“理论科学”:Scaling Law将与信息论、神经科学深度融合,建立坚实理论基础从“单一模型”到“系统工程”:Scaling Law将扩展到模型训练的全流程,包括数据治理、硬件优化、分布式系统设

#人工智能#自然语言处理#transformer +2
大模型面试题36:Transformer中的残差连接处理方式与作用

残差连接就是给模型加了一条“信息捷径”,把原始输入直接加到输出上,既防止深层训练崩溃,又不让模型丢了基础信息。残差连接通过yxFxyxFx的逐元素加和,让梯度能直接反向传播(避免梯度消失),同时让模型学习特征增量,是Transformer实现深层堆叠的核心技术。

#transformer#深度学习#人工智能 +4
大模型面试题35:Pre-LayerNorm vs Post-LayerNorm对深层Transformer训练稳定性

Pre-LN是“先调味再炒菜”,提前稳住食材状态,深层堆叠也不容易翻车;Post-LN是“先炒菜再调味”,浅层还行,深层就容易炒糊——实验的核心就是看谁在“炒很多遍”后还能保持好味道。通过控制变量法,对比不同层数下Pre/Post-LN的损失曲线、梯度范数和模型效果,可验证Pre-LN通过提前标准化特征分布,显著提升深层Transformer的训练稳定性,而Post-LN在深层时易出现梯度发散问题

#transformer#深度学习#人工智能 +4
大模型面试题34:Transformer的Encoder和Decoder区别与协作

Encoder:双向自注意力,专注理解输入,输出语义特征;Decoder:掩码自注意力+编码器-解码器注意力,专注生成输出,实现语义对齐。

#transformer#深度学习#人工智能 +3
大模型面试题33:Transformer为什么用LayerNorm,而非BatchNorm?

BatchNorm是“全班一起标准化”,依赖别人;LayerNorm是“自己跟自己比”,独立自主。Transformer处理的句子长短不一,用LayerNorm更灵活、更稳定!LayerNorm在单个样本的特征维度做归一化,不依赖批次统计量,完美适配Transformer的变长序列、padding和小batch训练场景,同时保留token的个性化特征,更利于自注意力机制学习。

#transformer#深度学习#人工智能 +3
大模型面试题32:为什么不单一注意力机制,而是采用多头注意力?MHA机制带来哪些优势?

多头注意力是**“分角度看问题,再汇总”**,比“用一个大角度硬看”看得更准、学得更轻松!多头注意力通过**“维度拆分→并行学习→结果融合”**的策略,在不增加计算复杂度的前提下,让模型能捕捉多类型的依赖关系,同时缓解维度灾难,提升训练稳定性和效果。

#自然语言处理#深度学习#人工智能 +3
大模型面试题25:Softmax函数把“得分”变成“概率”的归一化工具

对输入向量(纯文本写法):Softmaxziezi∑j1nezji12nSoftmaxzi​∑j1n​ezj​ezi​​i12n纯文本兼容版:分子:对单个得分做指数运算(保证非负)分母:所有得分指数的总和(做归一化,让结果之和=1)

#人工智能#深度学习#lstm +2
    共 118 条
  • 1
  • 2
  • 3
  • 12
  • 请选择