
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
MHA:极致效果,为预训练而生;MQA:极致效率,为边缘部署而生;GQA:平衡之道,成为工业界的最优解。
梯度累加的核心是「以时间换显存」,用小batch的显存占用模拟大batch训练,无精度损失;和直接缩小batch_size的核心区别:梯度累加模拟大batch(梯度稳定),而缩小batch是真·小batch(梯度抖动);梯度累加的关键操作:损失必须除以累加次数,梯度只在更新后清空。梯度累加是大模型训练中“零成本、高收益”的基础策略。
所以我们没有把它用来做训练ChatGPT这种聊天的东西,我们把它用来做给制药厂来开发新药,给飞机设计来替代风洞模型,做出对应的工业仿真,以及给其他的各行各业使用了。因此我们没有把它用来做ToC的东西,因为ToC领域,华为被制裁以后,我们的手机都没发货了,没有多少量了。华为现在的首要目的还是要活下来,因此对于有限的资源,我们有优先的选择。训练大模型需要庞大的算力支持,算力的背后是高端的芯片。因此我想

KV Cache = 大模型的“历史信息缓存池”,核心作用是复用已计算结果,降低推理阶段的计算成本,提升生成速度。对用户:生成速度更快,对话更流畅(不用等半天);对开发者:降低推理成本(减少GPU计算时间),提升部署效率;对大模型:是自回归模型实现“实时交互”的关键技术(没有KV Cache,大模型无法快速响应)。
从“规模至上”到“效率优先”:Densing Law、ParScale等新定律将主导未来1-2年的AI发展从“三维扩展”到“多维协同”:上下文、模态、推理等新维度加入,形成更复杂的缩放网络从“经验规律”到“理论科学”:Scaling Law将与信息论、神经科学深度融合,建立坚实理论基础从“单一模型”到“系统工程”:Scaling Law将扩展到模型训练的全流程,包括数据治理、硬件优化、分布式系统设
残差连接就是给模型加了一条“信息捷径”,把原始输入直接加到输出上,既防止深层训练崩溃,又不让模型丢了基础信息。残差连接通过yxFxyxFx的逐元素加和,让梯度能直接反向传播(避免梯度消失),同时让模型学习特征增量,是Transformer实现深层堆叠的核心技术。
Pre-LN是“先调味再炒菜”,提前稳住食材状态,深层堆叠也不容易翻车;Post-LN是“先炒菜再调味”,浅层还行,深层就容易炒糊——实验的核心就是看谁在“炒很多遍”后还能保持好味道。通过控制变量法,对比不同层数下Pre/Post-LN的损失曲线、梯度范数和模型效果,可验证Pre-LN通过提前标准化特征分布,显著提升深层Transformer的训练稳定性,而Post-LN在深层时易出现梯度发散问题
BatchNorm是“全班一起标准化”,依赖别人;LayerNorm是“自己跟自己比”,独立自主。Transformer处理的句子长短不一,用LayerNorm更灵活、更稳定!LayerNorm在单个样本的特征维度做归一化,不依赖批次统计量,完美适配Transformer的变长序列、padding和小batch训练场景,同时保留token的个性化特征,更利于自注意力机制学习。
对输入向量(纯文本写法):Softmaxziezi∑j1nezji12nSoftmaxzi∑j1nezjezii12n纯文本兼容版:分子:对单个得分做指数运算(保证非负)分母:所有得分指数的总和(做归一化,让结果之和=1)
核心思想:无需标签,通过“相似样本靠近、不相似样本远离”让模型自动学习特征;关键要素:锚点样本(基准)、正样本(相似,靠数据增强生成)、负样本(不相似,需足够多样);损失函数:InfoNCE是核心,通过温度参数控制对比强度,目标是让模型精准识别正样本;适用场景:无监督/半监督学习、特征提取、CV/NLP的检索/分类任务(需大量数据但标签稀缺);关键技巧:高质量的数据增强(正样本)、足够多的负样本(







