摸肚子的小胖子个人主页

@weixin_45264425

摸肚子的小胖子

2023-01-02 11:28:15 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

大模型面试题50：千卡集群，去对qwen2.5-72B进行sft全参微调，在训练过程中可能会遇到什么困难？

基础层避坑：全参微调 72B 首要解决显存和环境问题，通过 TP+DP 并行、混合精度、梯度检查点降低显存占用，用 Docker/独立环境保证兼容性。进阶层避坑：分布式通信是千卡集群的核心，优先用 InfiniBand 网络，配置 NCCL 参数，同时通过梯度裁剪、合理 lr 避免训练崩溃。深层避坑：模型效果失败多源于数据质量和调参策略，需保证足够的高质量训练数据，控制 batch size 和学

#算法 #人工智能 #transformer +3

大模型面试题49：从白话到进阶详解SFT 微调的 Loss 计算

核心是交叉熵损失，衡量模型预测 token 和标准答案 token 的概率差距；关键是只计算回答部分的 Loss，用 Mask 矩阵屏蔽指令和分隔符；目标是让训练 Loss 和验证 Loss 稳步下降，避免过拟合或欠拟合。

#深度学习 #人工智能 #机器学习 +4

大模型面试题48：从白话到进阶详解LoRA 中 r 和 alpha 参数

WnewWαr×BAWnewWrα×BA之前我们简化了公式，完整公式里是有α/r这个缩放项的，这就是两个参数的核心作用场景。r是 LoRA 两个小矩阵的中间维度矩阵Ad × rd是原模型的特征维度，比如 1024）矩阵Br × kk是原模型的输出维度，比如 1024）简单说，r就是「压缩特征的维度」—— 原模型的高维特征（1024维）会被A压缩到r维，再被B还原回高维。alpha是一个人工设定

#算法 #开发语言 #word2vec +3

大模型面试题44：注意力机制的三代进化MHA/MQA/GQA

MHA：极致效果，为预训练而生；MQA：极致效率，为边缘部署而生；GQA：平衡之道，成为工业界的最优解。

#transformer #word2vec #自然语言处理 +2

大模型面试题43：从小白视角递进讲解大模型训练的梯度累加策略

梯度累加的核心是「以时间换显存」，用小batch的显存占用模拟大batch训练，无精度损失；和直接缩小batch_size的核心区别：梯度累加模拟大batch（梯度稳定），而缩小batch是真·小batch（梯度抖动）；梯度累加的关键操作：损失必须除以累加次数，梯度只在更新后清空。梯度累加是大模型训练中“零成本、高收益”的基础策略。

#人工智能 #自然语言处理 #transformer +2

余承东首次回应：华为为什么不做ChatGPT ？

所以我们没有把它用来做训练ChatGPT这种聊天的东西，我们把它用来做给制药厂来开发新药，给飞机设计来替代风洞模型，做出对应的工业仿真，以及给其他的各行各业使用了。因此我们没有把它用来做ToC的东西，因为ToC领域，华为被制裁以后，我们的手机都没发货了，没有多少量了。华为现在的首要目的还是要活下来，因此对于有限的资源，我们有优先的选择。训练大模型需要庞大的算力支持，算力的背后是高端的芯片。因此我想

#华为 #人工智能

大模型面试题39：KV Cache 完全指南

KV Cache = 大模型的“历史信息缓存池”，核心作用是复用已计算结果，降低推理阶段的计算成本，提升生成速度。对用户：生成速度更快，对话更流畅（不用等半天）；对开发者：降低推理成本（减少GPU计算时间），提升部署效率；对大模型：是自回归模型实现“实时交互”的关键技术（没有KV Cache，大模型无法快速响应）。

#transformer #自然语言处理 #深度学习 +2

大模型面试题37：Scaling Law完全指南

从“规模至上”到“效率优先”：Densing Law、ParScale等新定律将主导未来1-2年的AI发展从“三维扩展”到“多维协同”：上下文、模态、推理等新维度加入，形成更复杂的缩放网络从“经验规律”到“理论科学”：Scaling Law将与信息论、神经科学深度融合，建立坚实理论基础从“单一模型”到“系统工程”：Scaling Law将扩展到模型训练的全流程，包括数据治理、硬件优化、分布式系统设

#人工智能 #自然语言处理 #transformer +2

大模型面试题36：Transformer中的残差连接处理方式与作用

残差连接就是给模型加了一条“信息捷径”，把原始输入直接加到输出上，既防止深层训练崩溃，又不让模型丢了基础信息。残差连接通过yxFxyxFx的逐元素加和，让梯度能直接反向传播（避免梯度消失），同时让模型学习特征增量，是Transformer实现深层堆叠的核心技术。

#transformer #深度学习 #人工智能 +4

大模型面试题35：Pre-LayerNorm vs Post-LayerNorm对深层Transformer训练稳定性

Pre-LN是“先调味再炒菜”，提前稳住食材状态，深层堆叠也不容易翻车；Post-LN是“先炒菜再调味”，浅层还行，深层就容易炒糊——实验的核心就是看谁在“炒很多遍”后还能保持好味道。通过控制变量法，对比不同层数下Pre/Post-LN的损失曲线、梯度范数和模型效果，可验证Pre-LN通过提前标准化特征分布，显著提升深层Transformer的训练稳定性，而Post-LN在深层时易出现梯度发散问题

#transformer #深度学习 #人工智能 +4

共 91 条

请选择