logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

3.1 知识蒸馏(Knowledge Distillation, KD)简介

知识蒸馏(KD)是一类“教师—学生”(Teacher–Student)范式的模型训练技术:用一个性能更强、结构更大、表达能力更充足的教师模型,将其“知识”迁移到一个更小、更快、更省资源的学生模型中,使学生在较低推理成本下获得接近教师的效果。模型压缩:把大模型的能力迁移到小模型,以满足端侧、低延迟或低成本部署需求。性能增强:在相同参数量下,通过学习教师的“软目标/中间表征/样本关系”,提升学生的泛化

#数据挖掘#算法#人工智能 +3
2.1 模型剪枝(Model Pruning)

训练过程中,很多权重会收敛到很小的值或形成高度相关的表示;许多注意力头、FFN 中间维度、甚至某些层在特定任务或数据分布上贡献较小;大模型为了通用性与可迁移性,往往“留了很多余量”。剪枝的目标并不是随便删参数,而是寻找一种“近似等价”的更小模型:在保证输出不显著变化的前提下,让模型的有效自由度减少。你可能把矩阵WWW中的某些元素置零,但保留矩阵形状不变;从张量视角看,稀疏位置分布不规则(irreg

#剪枝#算法#人工智能 +3
1.1 模型量化简介:从动机、对象到主流方法全景

模型量化(Quantization)的核心目标,是用去近似表示原本的浮点权重/激活,从而在下换取更低的显存/内存占用、更高的推理吞吐、更低的部署成本。直观理解:把连续的实数空间“压扁”为有限多个离散格点,模型仍能工作,但表示能力会受到一定约束。

#网络#服务器#深度学习 +4
8.1 MoE 系列:从 GShard 到 Mixtral,再到 Switch Transformer

Mixture-of-Experts(MoE)是一类“条件计算(conditional computation)”结构:模型不再对每个 token 都执行同样的全量前馈计算,而是通过一个路由器(Router / Gate)为每个 token 选择少量专家(Experts)参与计算。这样可以在总参数量大幅增长的同时,让每个 token 的计算量保持接近不变(或增长很少)。MoE 的核心由三部分构成:

#transformer#深度学习#人工智能 +2
7.2 DeepSeek-R1:从“纯强化学习自进化”到“多阶段可用推理模型”,以及 DeepSeek-Prover-V2 的形式化证明管线

子目标分解与冷启动数据生成用大模型生成证明草图,把复杂定理拆成多个子目标(类似人类先写证明框架)。递归求解子目标用专门证明器模型逐个解决子目标,把sorry占位符补齐。课程学习 + 一致性奖励的强化训练从简单到困难训练,并用一致性约束防止最终证明偏离原先分解结构。

#人工智能#机器学习#python +1
7.1 DeepSeek 系列模型结构与训练范式详解(V1 / Math / V2 / V3)

V1:在 LLaMA 范式上,用成熟的结构组件(Pre-RMSNorm / SwiGLU / RoPE / GQA)+ 大规模 tokenizer + SFT/DPO 对齐配方,构建通用对话模型体系。:从数据角度切入,用“种子语料 + fastText 召回 + 多轮迭代 + 去污染”构建 120B 数学 tokens,再结合数学指令微调与 GRPO 强化学习,把数学能力做成可扩展管线。V2。

#深度学习#人工智能#机器学习 +1
7.1 大模型的packing

Packing的核心思想是:把多条短序列“拼接”成一条更长的序列,让每个 batch 的 token 数尽量贴近上限,从而提高η\etaη。按 batch 内最长样本长度对齐:把 batch 内样本打包后再按该 batch 最长长度 pad按模型最大长度对齐:每个 pack 直接凑到最大长度Lmax⁡L_{\max}Lmax​(例如 4k / 8k / 128k),最大化吞吐本质上,Packing

#人工智能#机器学习#深度学习 +2
6.1 推理耗时:从逐 Token 生成到瓶颈与优化

大语言模型(LLM)的推理(inference)通常指:给定输入 Prompt,模型按自回归方式逐步生成输出 Token。

#人工智能#深度学习#机器学习 +2
6.1 Qwen 系列模型全解析(Qwen1 → Qwen3)

问题:数字作为整体 token 太稀疏设计:数字拆分成单字符 token,配合扩词表结果:数学、代码、表格任务更稳。

#bert#人工智能#深度学习 +2
5.1 GLM 系列:从 Autoregressive Blank Infilling 到 Agentic MoE

GLM 的关键在于 attention mask 的设计。Part A 内 tokens彼此可见(双向注意力)不可见Part B tokens(避免“偷看答案”)可见Part A(需要条件信息)可见Part B 中过去 tokens,不可见未来 tokens(因果自回归)如果将拼接后的序列记为A;B[A;B]A;B,对任意两个位置iji,jij若i∈Ai \in Ai∈A且j∈Aj \in Aj∈

#概率论#机器学习#深度学习 +2
    共 22 条
  • 1
  • 2
  • 3
  • 请选择