
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
知识蒸馏(KD)是一类“教师—学生”(Teacher–Student)范式的模型训练技术:用一个性能更强、结构更大、表达能力更充足的教师模型,将其“知识”迁移到一个更小、更快、更省资源的学生模型中,使学生在较低推理成本下获得接近教师的效果。模型压缩:把大模型的能力迁移到小模型,以满足端侧、低延迟或低成本部署需求。性能增强:在相同参数量下,通过学习教师的“软目标/中间表征/样本关系”,提升学生的泛化
训练过程中,很多权重会收敛到很小的值或形成高度相关的表示;许多注意力头、FFN 中间维度、甚至某些层在特定任务或数据分布上贡献较小;大模型为了通用性与可迁移性,往往“留了很多余量”。剪枝的目标并不是随便删参数,而是寻找一种“近似等价”的更小模型:在保证输出不显著变化的前提下,让模型的有效自由度减少。你可能把矩阵WWW中的某些元素置零,但保留矩阵形状不变;从张量视角看,稀疏位置分布不规则(irreg
模型量化(Quantization)的核心目标,是用去近似表示原本的浮点权重/激活,从而在下换取更低的显存/内存占用、更高的推理吞吐、更低的部署成本。直观理解:把连续的实数空间“压扁”为有限多个离散格点,模型仍能工作,但表示能力会受到一定约束。
Mixture-of-Experts(MoE)是一类“条件计算(conditional computation)”结构:模型不再对每个 token 都执行同样的全量前馈计算,而是通过一个路由器(Router / Gate)为每个 token 选择少量专家(Experts)参与计算。这样可以在总参数量大幅增长的同时,让每个 token 的计算量保持接近不变(或增长很少)。MoE 的核心由三部分构成:
子目标分解与冷启动数据生成用大模型生成证明草图,把复杂定理拆成多个子目标(类似人类先写证明框架)。递归求解子目标用专门证明器模型逐个解决子目标,把sorry占位符补齐。课程学习 + 一致性奖励的强化训练从简单到困难训练,并用一致性约束防止最终证明偏离原先分解结构。
V1:在 LLaMA 范式上,用成熟的结构组件(Pre-RMSNorm / SwiGLU / RoPE / GQA)+ 大规模 tokenizer + SFT/DPO 对齐配方,构建通用对话模型体系。:从数据角度切入,用“种子语料 + fastText 召回 + 多轮迭代 + 去污染”构建 120B 数学 tokens,再结合数学指令微调与 GRPO 强化学习,把数学能力做成可扩展管线。V2。
Packing的核心思想是:把多条短序列“拼接”成一条更长的序列,让每个 batch 的 token 数尽量贴近上限,从而提高η\etaη。按 batch 内最长样本长度对齐:把 batch 内样本打包后再按该 batch 最长长度 pad按模型最大长度对齐:每个 pack 直接凑到最大长度LmaxL_{\max}Lmax(例如 4k / 8k / 128k),最大化吞吐本质上,Packing
大语言模型(LLM)的推理(inference)通常指:给定输入 Prompt,模型按自回归方式逐步生成输出 Token。
问题:数字作为整体 token 太稀疏设计:数字拆分成单字符 token,配合扩词表结果:数学、代码、表格任务更稳。
GLM 的关键在于 attention mask 的设计。Part A 内 tokens彼此可见(双向注意力)不可见Part B tokens(避免“偷看答案”)可见Part A(需要条件信息)可见Part B 中过去 tokens,不可见未来 tokens(因果自回归)如果将拼接后的序列记为A;B[A;B]A;B,对任意两个位置iji,jij若i∈Ai \in Ai∈A且j∈Aj \in Aj∈







