qq_68188306 个人主页

@qq_68188306

qq_68188306

2024-04-15 15:59:03 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

3.1 知识蒸馏（Knowledge Distillation, KD）简介

知识蒸馏（KD）是一类“教师—学生”（Teacher–Student）范式的模型训练技术：用一个性能更强、结构更大、表达能力更充足的教师模型，将其“知识”迁移到一个更小、更快、更省资源的学生模型中，使学生在较低推理成本下获得接近教师的效果。模型压缩：把大模型的能力迁移到小模型，以满足端侧、低延迟或低成本部署需求。性能增强：在相同参数量下，通过学习教师的“软目标/中间表征/样本关系”，提升学生的泛化

#数据挖掘 #算法 #人工智能 +3

2.1 模型剪枝（Model Pruning）

训练过程中，很多权重会收敛到很小的值或形成高度相关的表示；许多注意力头、FFN 中间维度、甚至某些层在特定任务或数据分布上贡献较小；大模型为了通用性与可迁移性，往往“留了很多余量”。剪枝的目标并不是随便删参数，而是寻找一种“近似等价”的更小模型：在保证输出不显著变化的前提下，让模型的有效自由度减少。你可能把矩阵WWW中的某些元素置零，但保留矩阵形状不变；从张量视角看，稀疏位置分布不规则（irreg

#剪枝 #算法 #人工智能 +3

1.1 模型量化简介：从动机、对象到主流方法全景

模型量化（Quantization）的核心目标，是用去近似表示原本的浮点权重/激活，从而在下换取更低的显存/内存占用、更高的推理吞吐、更低的部署成本。直观理解：把连续的实数空间“压扁”为有限多个离散格点，模型仍能工作，但表示能力会受到一定约束。

#网络 #服务器 #深度学习 +4

8.1 MoE 系列：从 GShard 到 Mixtral，再到 Switch Transformer

Mixture-of-Experts（MoE）是一类“条件计算（conditional computation）”结构：模型不再对每个 token 都执行同样的全量前馈计算，而是通过一个路由器（Router / Gate）为每个 token 选择少量专家（Experts）参与计算。这样可以在总参数量大幅增长的同时，让每个 token 的计算量保持接近不变（或增长很少）。MoE 的核心由三部分构成：

#transformer #深度学习 #人工智能 +2

7.2 DeepSeek-R1：从“纯强化学习自进化”到“多阶段可用推理模型”，以及 DeepSeek-Prover-V2 的形式化证明管线

子目标分解与冷启动数据生成用大模型生成证明草图，把复杂定理拆成多个子目标（类似人类先写证明框架）。递归求解子目标用专门证明器模型逐个解决子目标，把sorry占位符补齐。课程学习 + 一致性奖励的强化训练从简单到困难训练，并用一致性约束防止最终证明偏离原先分解结构。

#人工智能 #机器学习 #python +1

7.1 DeepSeek 系列模型结构与训练范式详解（V1 / Math / V2 / V3）

V1：在 LLaMA 范式上，用成熟的结构组件（Pre-RMSNorm / SwiGLU / RoPE / GQA）+ 大规模 tokenizer + SFT/DPO 对齐配方，构建通用对话模型体系。：从数据角度切入，用“种子语料 + fastText 召回 + 多轮迭代 + 去污染”构建 120B 数学 tokens，再结合数学指令微调与 GRPO 强化学习，把数学能力做成可扩展管线。V2。

#深度学习 #人工智能 #机器学习 +1

7.1 大模型的packing

Packing的核心思想是：把多条短序列“拼接”成一条更长的序列，让每个 batch 的 token 数尽量贴近上限，从而提高η\etaη。按 batch 内最长样本长度对齐：把 batch 内样本打包后再按该 batch 最长长度 pad按模型最大长度对齐：每个 pack 直接凑到最大长度Lmax⁡L_{\max}Lmax（例如 4k / 8k / 128k），最大化吞吐本质上，Packing

#人工智能 #机器学习 #深度学习 +2

6.1 推理耗时：从逐 Token 生成到瓶颈与优化

大语言模型（LLM）的推理（inference）通常指：给定输入 Prompt，模型按自回归方式逐步生成输出 Token。

#人工智能 #深度学习 #机器学习 +2

6.1 Qwen 系列模型全解析（Qwen1 → Qwen3）

问题：数字作为整体 token 太稀疏设计：数字拆分成单字符 token，配合扩词表结果：数学、代码、表格任务更稳。

#bert #人工智能 #深度学习 +2

5.1 GLM 系列：从 Autoregressive Blank Infilling 到 Agentic MoE

GLM 的关键在于 attention mask 的设计。Part A 内 tokens彼此可见（双向注意力）不可见Part B tokens（避免“偷看答案”）可见Part A（需要条件信息）可见Part B 中过去 tokens，不可见未来 tokens（因果自回归）如果将拼接后的序列记为A;B[A;B]A;B，对任意两个位置iji,jij若i∈Ai \in Ai∈A且j∈Aj \in Aj∈

#概率论 #机器学习 #深度学习 +2

共 22 条

请选择