
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文系统梳理DeepSeek在推理能力(Reasoning)领域的技术演进:代码预训练奠基:DeepSeek-Coder通过纯代码数据训练,首次验证代码能力对通用推理的促进作用。数学推理突破:DeepSeekMath引入过程监督和GRPO算法(轻量强化学习),实现开源数学模型SOTA。形式化证明探索:DeepSeek-Prover结合定理证明引擎(如Lean),用形式化验证替代奖励模型反馈。规则反

这篇是Deepseek正式受到大量关注的论文,可以看作是v2的scale up,参数规模达到671B,是当时非常出名的 DeepSeek-R1 的基座模型。相比前代 DeepSeek-V2(236B),V3 模型规模接近三倍,训练 token 数量达到 14.8T,远超 V2 的 8.1T。尽管模型规模巨大,DeepSeek-V3 的训练成本却非常低廉,使用,训练时长为;总花费仅,远低于同期其他开

本文系统解析大模型预训练全流程:定义:通过大规模无标注语料的自监督学习(Next Token Prediction),使模型掌握通用知识和模式。数据处理:涵盖数据来源(网络/书籍)、清洗(去重/去噪)、分词(BPE等)及多阶段(PT/SFT/RM/PPO)的数据格式差异。训练逻辑:PT阶段:整段文本损失计算SFT阶段:仅计算Response部分的损失(通过-100屏蔽Prompt)统一使用交叉熵损

本文系统梳理深度学习归一化技术,揭示其通过稳定隐藏层输出分布解决梯度消失/爆炸、加速训练的核心机制。对比分析BN(批量统计)、LN(序列模型优化)、IN(风格迁移)、GN(小批量适配)及高效RMS Norm的原理与局限;深入探讨Transformer中Pre-LN/Post-LN的结构差异,并解析千层模型专用技术DeepNorm的缩放策略与初始化改进。结合数学公式、代码示例及场景对比,为模型设计与

为了解决这种序列到序列(sequence-to-sequence)的问题,比如机器翻译中输入输出长度不一致的情况,人们引入了编码器-解码器结构,并使用了循环神经网络(RNN)。这是标准的 Word2Vec 方法,它的核心是训练出一个“词典式”的嵌入矩阵 W,只捕捉单个词的语义。因此,机器翻译的关键在于:如何从纯文本中提取出一种通用的语义表示,使得不同语言的词可以通过这一表示实现对齐。通过前面的介绍

这篇是Deepseek正式受到大量关注的论文,可以看作是v2的scale up,参数规模达到671B,是当时非常出名的 DeepSeek-R1 的基座模型。相比前代 DeepSeek-V2(236B),V3 模型规模接近三倍,训练 token 数量达到 14.8T,远超 V2 的 8.1T。尽管模型规模巨大,DeepSeek-V3 的训练成本却非常低廉,使用,训练时长为;总花费仅,远低于同期其他开

本文系统梳理DeepSeek在推理能力(Reasoning)领域的技术演进:代码预训练奠基:DeepSeek-Coder通过纯代码数据训练,首次验证代码能力对通用推理的促进作用。数学推理突破:DeepSeekMath引入过程监督和GRPO算法(轻量强化学习),实现开源数学模型SOTA。形式化证明探索:DeepSeek-Prover结合定理证明引擎(如Lean),用形式化验证替代奖励模型反馈。规则反

Deepseek v2可以看作是上面那一篇paper的scale up,不过也有一些非常重要的技术。从论文名字可以看出来“A Strong, Economical, and Efficient”,他们提出了进一步降低成本的技术DeepSeek-V2 是236B的混合专家模型(MoE),每个 token 激活21B,极大降低了推理成本。相比第一代的 DeepSeek 67B,虽然模型规模更大(接近其

DeepSeek LLM 的本质突破:以科学方法将工程复现转化为创新跳板——通过数据质量量化、超参数缩放定律、动态训练策略,为开源社区提供了一套可复现、可扩展的高效训练范式,奠定后续 DeepSeek-V2/V3/R1 的技术基因。








