logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

deepseek mtp 源码解析

统一计算,然后拆分: 先用self.mtp一口气计算出所有层级的隐状态[H₀...Hₖ],然后用chunk拆分开。迭代滚动,匹配目标: 在循环中,通过不断地将labels向前滚动,巧妙地为每个MTP模块(H₁H₂, …)匹配上正确的未来目标(next_2next_3, …)。计算损失,但不立即反传: 为每个MTP模块计算出mtp_loss。梯度“嫁接”: 使用这个“自动求导函数钩子”,将mtp_l

#深度学习#人工智能
【大模型训练】deepseek MTP

特性传统单步预测MTP 多步预测监督信号稀疏 (Sparse)密集 (Dense)每个Token的任务预测1步未来预测k+1步未来接收的梯度来自1个目标来自k+1个目标数据利用率基础提升k倍模型学习到的能力主要关注局部、短程依赖强制学习短、中、长程依赖一个生动的类比:传统训练(稀疏信号): 像一个只盯着脚下走路的人。他每走一步,只看下一步要落在哪里。他能走得很稳,但可能对远方的路线规划能力较弱。M

#人工智能
[vllm]evalscope 压测原理

插件化异步生产者-消费者带背压流式统计持久化的 benchmark 执行框架。yield:把一个值交给调用者,并暂停自己await:把控制权交给事件循环,等异步事件完成后再恢复async for:调用方不断恢复这个异步生成器,直到它结束内部 generator不是独立并发协程任务,它只是内部驱动的一个异步生成器。这段代码本质上是:用构造一个带连接池、超时、trace 的异步 HTTP 客户端外壳,

#python#前端
【vllm】PD分离

NIXL (NVIDIA Infrastructure eXtension Library) 是一个高性能的 GPU 内存传输库,支持 RDMA(远程直接内存访问)等传输方式。在 vLLM 的 PD 分离架构中,NIXL 负责在 prefill 和 decode 实例之间传输 KV cache 数据2。因为 CUDA 上下文、驱动状态、线程和锁不是 fork-safe,复制父进程状态会导致子进程中

【vllm】dp 并行。Coordinator订阅与发布

订阅方发现发布方的过程,可以总结为以下三步:集中注册 (Centralized Registration): 发布方 () 在启动时,将其广播地址注册到一个中心协调者 (Launcher) 那里。配置分发 (Configuration Distribution): 中心协调者 (Launcher) 在创建订阅方进程 (API Server) 时,将发布方的地址作为启动配置的一部分传递给它。直接连接

#python#php
【大模型训练】sglang 权重绑定和roll HF Meg相互转化

在许多语言模型中,输入的词嵌入矩阵和输出的语言模型头(lm_head)可以共享相同的权重矩阵,这样可以减少模型参数量。这个特性通过配置文件中的参数控制。

#算法
【大模型训练Megatron】--overlap-grad-reduce 和 --overlap-param-gather

参数作用阶段优化目标依赖条件反向传播梯度 All-Reduce 与反向计算重叠数据并行(DP)前向传播参数 gather 与前向计算重叠分布式优化器(这两个选项是 Megatron 实现高 MFU(Model FLOP Utilization)的关键技术,能显著提升千卡级集群的训练效率。

#算法
【大模型训练】HF转Megatron Template 及dist_converter

之所以要重写,是因为 DeepSeek-V3 模型的复杂性超出了静态转换规则的能力范围。重写该方法是为了注入动态的、基于上下文的转换逻辑处理 MTP/MLA 异构性: 根据权重所属的层索引,判断它是否为 MTP/MLA 层,并动态地将权重名称从decoder.域转换到mtp.域。处理 Dense/MoE 异构性: 根据权重所属的层索引,判断它位于 Dense 层还是 MoE 层,并根据其所属层的类

#深度学习
【大模型训练Megatron学习】 HF格式和Megatron格式转化

问题类型表现解决方案TP/PP 不匹配加载时报 shape mismatch转换时必须与启动时一致RoPE 参数错误生成乱码或重复正确设置分词器类型错误输入解析异常Llama-3/Mistral 用未解绑 embedding/lm_head维度错误加Bias 未关闭多出 bias 参数加组件作用参数名(HF)是否共享(Llama/Mistral)Embedding 层token ID → 向量❌

#学习
    共 167 条
  • 1
  • 2
  • 3
  • 17
  • 请选择