
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
核心主题:2025 年大语言模型(LLMs)架构演进不再单纯依赖规模扩张,而是通过架构革新提升模型能力与效率。主要覆盖内容全注意力序列建模稀疏序列建模模型混合专家模型(MoE)状态化序列建模模型多模态语言模型架构新兴方向(扩散语言模型、动态计算、嵌套学习等)演进逻辑:从“静态规则”向“动态适应”、从“稠密计算”向“高效稀疏/混合”、从“单模态”向“原生多模态”转变,追求效率与表达能力的帕累托最优。
BERT(Encoder-Only,双向理解专家):像一个“超级阅读理解高手”。它能同时看前后所有内容(双向注意力),非常擅长“吃透”一句话的意思。典型干的事:判断这句话是正面还是负面情感?找出人名、地名?判断两句话是否相似?做搜索排序。它不擅长自己写长文章,因为它不是为“一步一步生成”设计的。GPT(Decoder-Only,续写/生成大师):像一个“天才故事续写家”。它只能从左往右看已经写过的

最重要概念稀疏激活:MoE 的本质——用海量参数换取极低的活跃计算量。Router(门控网络)Experts:MoE 的两大核心组件。:目前最主流的路由策略(尤其是 Top-2)。负载均衡:MoE 训练中最关键的挑战,必须通过辅助损失解决。共享专家(DeepSeek):现代 MoE 的重要创新方向。MoE vs 稠密模型对比参数容量:MoE ≫ 稠密推理计算量:MoE ≈ 小模型训练难度:MoE

RLHF(基于人类反馈的强化学习)是一种关键技术,通过人类偏好数据优化大语言模型(LLM)的输出,使其更符合有用性(Helpful)、诚实性(Honest)和无害性(Harmless)的3H原则。RLHF分为三个阶段:监督微调(SFT)、奖励模型训练(RM)和强化学习优化(如PPO/DPO/GRPO)。其中,DPO(直接偏好优化)因高效稳定成为主流方法,无需显式奖励模型即可直接优化偏好数据。实战中

本文介绍了大模型量化技术与DeepSpeed分布式训练框架。量化技术通过降低权重精度(如FP16→INT4)显著减少显存占用和提升推理速度,主流方法包括GPTQ(二阶误差补偿)、AWQ(激活感知缩放)和BitsAndBytes(混合精度处理离群值)。实战部分演示了使用llmcompressor工具进行W4A16量化的完整流程。DeepSpeed框架通过ZeRO优化器分片策略(分三个阶段消除模型状态

统一 API 支持 GPTQ、AWQ、SmoothQuant、SparseGPT 等多种压缩算法。与 Hugging Face 和 vLLM 深度集成,输出可直接被 vLLM 加载部署。定位:微软开源的 PyTorch 分布式训练与推理优化库,侧重于系统与算力优化,与 Hugging Face(模型/数据生态)互补。核心目标:用更少显存训练更大模型、更快训练、更稳扩展。主要子模块(核心):含 Ze
将文本生成建模为片段式(Episodic)马尔可夫决策过程(MDP)状态 (State):s_t = (x, y_1, ..., y_{t-1})(当前上下文)动作 (Action):下一个 Token y_t策略 (Policy):语言模型 π_θ(y_t | s_t)奖励 (Reward):通常在序列结束时给出标量奖励 R(x, y)优化目标:支持主流开源模型(LLaMA、Qwen、Baich
核心主题:2025 年大语言模型(LLMs)架构演进不再单纯依赖规模扩张,而是通过架构革新提升模型能力与效率。主要覆盖内容全注意力序列建模稀疏序列建模模型混合专家模型(MoE)状态化序列建模模型多模态语言模型架构新兴方向(扩散语言模型、动态计算、嵌套学习等)演进逻辑:从“静态规则”向“动态适应”、从“稠密计算”向“高效稀疏/混合”、从“单模态”向“原生多模态”转变,追求效率与表达能力的帕累托最优。
方法核心思想可训练部分关键机制解决的问题LoRA低秩近似低秩矩阵 A 和 B (旁路)\(\Delta W = B \cdot A\),可合并入原权重无推理延迟,极高参数/存储效率AdaLoRA自适应低秩分配SVD 参数化的 P, Λ, Q重要性评分 + 动态预算调度固定秩分配的次优性,模块/层级重要性差异QLoRA量化基座模型 + LoRANF4 量化后的基座 + 16-bit 适配器NF4 数

最重要概念稀疏激活:MoE 的本质——用海量参数换取极低的活跃计算量。Router(门控网络)Experts:MoE 的两大核心组件。:目前最主流的路由策略(尤其是 Top-2)。负载均衡:MoE 训练中最关键的挑战,必须通过辅助损失解决。共享专家(DeepSeek):现代 MoE 的重要创新方向。MoE vs 稠密模型对比参数容量:MoE ≫ 稠密推理计算量:MoE ≈ 小模型训练难度:MoE








