logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型面试必备9-大模型badcase、Encoder-Only 和 Decoder-Only

对比维度Encoder-Only (如 BERT)Decoder-Only (如 GPT, LLaMA)注意力机制双向 (Bidirectional):可以看到完整的上下文。单向 (Unidirectional/Causal):只能看到当前词及其前面的词。训练方式完形填空 (Masked Language Modeling)预测下一个词 (Next Token Prediction / Autor

文章图片
#面试#人工智能#机器学习 +2
大模型面试必备8-模型并行、显存计算

本文系统讲解了大模型分布式训练中的核心通信原语及其应用场景。首先介绍了五大通信原语:Broadcast(广播初始化参数)、Scatter(数据分片)、Gather(结果收集)、Reduce(梯度聚合)和AllReduce(同步更新),通过员工协作的比喻形象说明其区别。特别强调AllReduce=Reduce+Broadcast,是分布式训练梯度同步的关键。其次详细推导了大模型显存估算方法:全精度下

文章图片
#面试#职场和发展
大模型面试必备9-大模型badcase、Encoder-Only 和 Decoder-Only

对比维度Encoder-Only (如 BERT)Decoder-Only (如 GPT, LLaMA)注意力机制双向 (Bidirectional):可以看到完整的上下文。单向 (Unidirectional/Causal):只能看到当前词及其前面的词。训练方式完形填空 (Masked Language Modeling)预测下一个词 (Next Token Prediction / Autor

文章图片
#面试#人工智能#机器学习 +2
大模型面试必备7-left padding、MoE 网络、Router

本文讨论了大语言模型(LLM)中Left Padding的应用原因以及MoE架构的核心原理。 Left Padding的转变:从BERT时代的Right Padding转向LLM的Left Padding,主要因为Decoder架构需要确保生成的连贯性。Left Padding使真实Token末尾对齐,避免语义断层,在批量处理时更高效。 MoE架构解析: MoE通过稀疏激活专家网络(如FFN层)取

文章图片
#面试#网络#职场和发展 +2
大模型面试必备6-看懂 PPO、DPO、GRPO、DAPO 与 GSPO

大模型对齐算法演进:从PPO到GSPO 大模型对齐技术通过RLHF使模型响应更符合人类偏好。PPO作为鼻祖,使用4个模型(策略、参考、奖励、价值模型)计算优势值优化策略,但训练复杂。DPO简化流程,直接利用偏好数据微调,省去奖励模型。GRPO改进PPO,通过组内采样计算相对优势,提升推理能力。DAPO针对GRPO优化,引入动态采样、软惩罚等机制,解决长文本训练问题。GSPO则针对MoE架构,采用整

文章图片
#面试#职场和发展#人工智能 +1
大模型面试必备4-熵、交叉熵和 KL 散度、拒绝采样

摘要 本文从信息论基础概念出发,系统阐述了熵、交叉熵与KL散度的理论关系及其在机器学习中的应用逻辑: 信息熵作为不确定性度量,量化系统的平均信息量;KL散度衡量两个概率分布的差异,具有非负性和非对称性;交叉熵则作为连接桥梁,其最小化等价于最小化KL散度,成为分类任务的核心损失函数。 在拒绝采样部分,对比了统计学与大模型应用的差异:统计学中是通过辅助分布逼近目标分布,而大模型训练中则是利用奖励模型筛

文章图片
#面试#职场和发展#机器学习 +2
大模型面试必备5-困惑度、数据在 GPU 上到底是怎么流转的

摘要 语言模型评估指标困惑度(Perplexity) 困惑度(PPL)是衡量语言模型预测能力的核心指标,表示模型预测下一个词时的平均不确定程度。其计算基于条件概率的乘积,通过取对数避免数值下溢,最终取指数得到PPL值。PPL越低,模型预测越准确。公式为:$PPL = \exp(-\frac{1}{N}\sum \log P(w_i|w_{<i}))$。面试中需强调其与交叉熵的关系($PPL = e

文章图片
#面试#职场和发展#人工智能 +2
大模型面试必备3-深度思考自主切换、Muon 优化器与Adam

文章摘要: 本文探讨了大模型深度思考(CoT)的自主切换技术(AutoThink)与新型优化器Muon。针对CoT的“过度思考”问题,提出三类解决方案:基于规则(熵值/概率差值)、分类模型及多阶段强化学习(AutoThink),后者通过奖励机制动态平衡思考与效率。Muon优化器则通过正交化梯度动量,减少显存占用(仅为AdamW一半)并加速收敛,尤其适合分布式训练。两项技术分别提升模型推理效率与训练

文章图片
#面试#人工智能#机器学习 +3
大模型面试必备2- Bert 与 LSTM、MoE 架构与 Dense 架构

本文对比分析了NLP领域两大里程碑模型LSTM和BERT的核心差异。LSTM作为时序模型,通过门控机制实现序列记忆,但存在串行计算和长程依赖问题;而BERT基于Transformer编码器,利用自注意力机制实现并行全局语义理解。关键区别在于:1)LSTM适合序列生成任务,BERT擅长语义理解;2)BERT支持并行计算和预训练范式,显著提升效率与泛化能力。文章还深入解析了混合专家模型(MoE)架构,

文章图片
#面试#bert#lstm +3
大模型入门-大模型优化方法14- DeepSeek-V3.2 :DeepSeek Sparse Attention 详解

DeepSeek推出DeepSeek Sparse Attention (DSA),通过稀疏注意力机制优化长文本处理效率。核心包括闪电索引器(轻量级FP8加速相关性计算)和细粒度Token选择(仅处理Top-k关键Token),显著降低计算复杂度(从$O(L^2)$降至$O(Lk)$)。训练分两步:先密集热身优化索引器,再稀疏训练适配全模型。实测在128K上下文中,推理成本预填充阶段降低50%-6

文章图片
#人工智能#正则表达式#算法 +1
    共 94 条
  • 1
  • 2
  • 3
  • 10
  • 请选择