
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
FFN 输入维度d4096d = 4096d4096传统 FFN 常取中间维度4d163844d = 163844d16384但使用SwiGLU后,FFN 由“2 个矩阵”变成“3 个矩阵”。为了让参数量大致保持不变,通常把中间层宽度从4d4d4d缩小到大约232/32/323×16384≈1092232×16384≈10922110081100811008这类“取整到某个倍数”的做法很常见,因
讨论默认以论文与技术报告中的描述为准,并配合必要的直观案例帮助理解。
GLM 的关键在于 attention mask 的设计。Part A 内 tokens彼此可见(双向注意力)不可见Part B tokens(避免“偷看答案”)可见Part A(需要条件信息)可见Part B 中过去 tokens,不可见未来 tokens(因果自回归)如果将拼接后的序列记为A;B[A;B]A;B,对任意两个位置iji,jij若i∈Ai \in Ai∈A且j∈Aj \in Aj∈
问题:数字作为整体 token 太稀疏设计:数字拆分成单字符 token,配合扩词表结果:数学、代码、表格任务更稳。
子目标分解与冷启动数据生成用大模型生成证明草图,把复杂定理拆成多个子目标(类似人类先写证明框架)。递归求解子目标用专门证明器模型逐个解决子目标,把sorry占位符补齐。课程学习 + 一致性奖励的强化训练从简单到困难训练,并用一致性约束防止最终证明偏离原先分解结构。
V1:在 LLaMA 范式上,用成熟的结构组件(Pre-RMSNorm / SwiGLU / RoPE / GQA)+ 大规模 tokenizer + SFT/DPO 对齐配方,构建通用对话模型体系。:从数据角度切入,用“种子语料 + fastText 召回 + 多轮迭代 + 去污染”构建 120B 数学 tokens,再结合数学指令微调与 GRPO 强化学习,把数学能力做成可扩展管线。V2。
维度高分辨率策略固定1024×10241024×1024+ 混合编码器(语义+细节)动态分块(tiles + 全局缩略图),自适应宽高比与分辨率视觉编码器SigLIP + SAM-B(混合)SigLIP-SO400M-384(多块编码) + token 压缩 + 布局标记结构提示主要靠融合后的序列显式建模二维布局边界语言模型DeepSeekMoE(多规模)+ MLA(KV 压缩)主要解决痛点在 t
强化学习(Reinforcement Learning, RL)是一种机器学习方法,它通过来学习如何采取最优行为,从而最大化长期累积奖励。与有监督学习不同,强化学习不仅关注预测,还强调决策与反馈循环。
前面的小节详细介绍了大模型SFT的数据部分,包括合成、过滤、多样性等等,数据极大的影响着大模型SFT的效果。介绍完数据从这一节开始具体介绍大模型SFT的过程,包括参数设置、训练策略、训练技巧、效果评估等等。
数据形式不能让模型轻易找到规律,关键信息在 prompt 中的位置分布必须足够随机。这样可避免模型在训练中出现Bias,而是能完整理解 prompt 的全貌。这对类型的任务尤为重要。数据多样性应当从用途、形式、语义三个维度综合设计。用途多样性确保模型在不同任务场景下都能胜任。形式多样性防止模型依赖固定模式,从而提升泛化能力。语义多样性保证模型知识覆盖广度和表达灵活性。







