
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
基础层避坑:全参微调 72B 首要解决显存和环境问题,通过 TP+DP 并行、混合精度、梯度检查点降低显存占用,用 Docker/独立环境保证兼容性。进阶层避坑:分布式通信是千卡集群的核心,优先用 InfiniBand 网络,配置 NCCL 参数,同时通过梯度裁剪、合理 lr 避免训练崩溃。深层避坑:模型效果失败多源于数据质量和调参策略,需保证足够的高质量训练数据,控制 batch size 和学
核心是交叉熵损失,衡量模型预测 token 和标准答案 token 的概率差距;关键是只计算回答部分的 Loss,用 Mask 矩阵屏蔽指令和分隔符;目标是让训练 Loss 和验证 Loss 稳步下降,避免过拟合或欠拟合。
WnewWαr×BAWnewWrα×BA之前我们简化了公式,完整公式里是有α/r这个缩放项的,这就是两个参数的核心作用场景。r是 LoRA 两个小矩阵的中间维度矩阵Ad × rd是原模型的特征维度,比如 1024)矩阵Br × kk是原模型的输出维度,比如 1024)简单说,r就是「压缩特征的维度」—— 原模型的高维特征(1024维)会被A压缩到r维,再被B还原回高维。alpha是一个人工设定
MHA:极致效果,为预训练而生;MQA:极致效率,为边缘部署而生;GQA:平衡之道,成为工业界的最优解。
梯度累加的核心是「以时间换显存」,用小batch的显存占用模拟大batch训练,无精度损失;和直接缩小batch_size的核心区别:梯度累加模拟大batch(梯度稳定),而缩小batch是真·小batch(梯度抖动);梯度累加的关键操作:损失必须除以累加次数,梯度只在更新后清空。梯度累加是大模型训练中“零成本、高收益”的基础策略。
所以我们没有把它用来做训练ChatGPT这种聊天的东西,我们把它用来做给制药厂来开发新药,给飞机设计来替代风洞模型,做出对应的工业仿真,以及给其他的各行各业使用了。因此我们没有把它用来做ToC的东西,因为ToC领域,华为被制裁以后,我们的手机都没发货了,没有多少量了。华为现在的首要目的还是要活下来,因此对于有限的资源,我们有优先的选择。训练大模型需要庞大的算力支持,算力的背后是高端的芯片。因此我想

KV Cache = 大模型的“历史信息缓存池”,核心作用是复用已计算结果,降低推理阶段的计算成本,提升生成速度。对用户:生成速度更快,对话更流畅(不用等半天);对开发者:降低推理成本(减少GPU计算时间),提升部署效率;对大模型:是自回归模型实现“实时交互”的关键技术(没有KV Cache,大模型无法快速响应)。
从“规模至上”到“效率优先”:Densing Law、ParScale等新定律将主导未来1-2年的AI发展从“三维扩展”到“多维协同”:上下文、模态、推理等新维度加入,形成更复杂的缩放网络从“经验规律”到“理论科学”:Scaling Law将与信息论、神经科学深度融合,建立坚实理论基础从“单一模型”到“系统工程”:Scaling Law将扩展到模型训练的全流程,包括数据治理、硬件优化、分布式系统设
残差连接就是给模型加了一条“信息捷径”,把原始输入直接加到输出上,既防止深层训练崩溃,又不让模型丢了基础信息。残差连接通过yxFxyxFx的逐元素加和,让梯度能直接反向传播(避免梯度消失),同时让模型学习特征增量,是Transformer实现深层堆叠的核心技术。
Pre-LN是“先调味再炒菜”,提前稳住食材状态,深层堆叠也不容易翻车;Post-LN是“先炒菜再调味”,浅层还行,深层就容易炒糊——实验的核心就是看谁在“炒很多遍”后还能保持好味道。通过控制变量法,对比不同层数下Pre/Post-LN的损失曲线、梯度范数和模型效果,可验证Pre-LN通过提前标准化特征分布,显著提升深层Transformer的训练稳定性,而Post-LN在深层时易出现梯度发散问题







