logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【大模型推理】PD分离mooncake 学习

你理解的核心完全正确:Prefill阶段之所以要“着急忙慌”地、Layer-wise异步地将KVCache移出GPU(Offload到CPU或Transfer给Decode实例),其根本驱动力在于。

#学习
【分布式训练】Megatron-LM 中 Context Parallel原理:如何结合flash_attnV2和Ring attention

第二步:Megatron-LM 中 Context Parallel原理, 如何实现负载均衡的, 数据对称重组,并移除causal masking中不必要的计算, 如何修正F2。第一步:先学习flash_attn和Ring Attntion。第三步:修正F2 的原理及公式推导。

#学习
【大模型训练】中短序列attention 和MOE层并行方式

贯穿两层) 简化了实现,并最大化利用了设备间的通信链路(组内通信通常比跨组快)。在输入长度 ≤16K 的场景下,这种配置有效降低了 Attention 的通信压力并提升了其单卡计算效率,同时通过。的通信与计算实现方式,并结合你的具体配置(DP=4, TP=4 for Attention;MoE 层的输入来自于前一层(如前一个 Attention 或 FFN 层)。解决了 MoE 负载不均的核心痛点

#人工智能
【DeepSeek 学习推理】Llumnix: Dynamic Scheduling for Large Language Model Serving

为此,我们提出了Llumnix ——一种针对LLM服务的系统,它通过跨多个模型实例的运行时动态重调度 来应对异构且不可预测的请求。评估表明,与现有最先进的LLM服务系统相比,Llumnix将尾延迟降低了一个数量级,高优先级请求加速达1.5倍,且在保持相似尾延迟的情况下实现高达36%的成本节约。重调度通过响应请求实际内存增长,补充了初始调度的不足。在大多数时间段内,集群总空闲内存足以容纳至少三个实例

文章图片
#学习#语言模型#人工智能
【Deepseek学习大模型推理】MOONCAKE: A KVCache-centric Architecture实验部分(下)

如前所述,根据Kimi的历史统计数据,MOONCAKE在A800和H800集群上分别实现了比基于vLLM的原有系统多处理115%和107%的请求量。具体而言,我们测量每个请求的首令牌生成时间(TTFT)和尾部延迟(TBT),其中TBT通过计算最长10%的token到达间隔的平均值确定。如§2所述,TTFT阈值设为30秒,TBT阈值根据场景分别设为100 ms、200 ms和300 ms。若请求的T

文章图片
#学习
【Deepseek学习大模型推理】MOONCAKE: A KVCache-centric Architecture 第一部分引言部分

作为模型即服务(MaaS)提供商,Kimi [5] 的核心目标之一是解决一个包含多重复杂约束的优化问题:优化目标是最大化整体有效吞吐量(直接影响收入),而约束条件则体现为不同层级的 SLOs。该平台以 KVCache 为中心,采用分离式架构——不仅将预填充(prefill)和解码(decoding)集群解耦,还通过高效利用 GPU 集群中未被充分利用的 CPU、DRAM、SSD 和网卡(NIC)资

文章图片
#学习#人工智能#大数据
【【大模型推理】SCORPIO: Serving the Right Requests at the Right Time for Heterogeneous SLOs in LLM(第四部)】

基于信用的批处理机制通过TRP动态分配资源,将严格SLO请求的优先级显式编码到信用积累速率中,同时利用信用扣除机制实现细粒度的批次控制。这一方法在保证服务质量的同时,最大化了系统吞吐量。

#算法#人工智能#机器学习
【deepseek】 学cuda 基于WMMA的半精度矩阵乘法(HGEMM)

难点在于划分warp。涉及三次划分warp。全局内存到共享内存如何划分warp?利用TensorCor 即wmma 接口实现16*16 矩阵相乘时,如何划分warp?将计算结果,写回全局内存,怎样划分warp 实现并行?这三次划分warp 可以独立的划分。原因在于,三次操作间已经__syncthreads()同步过了。代码中, 后两次划分warp方式可以保持一致。笔者学习过程中,对数据搬用划分可以

文章图片
#矩阵#c++
    共 62 条
  • 1
  • 2
  • 3
  • 7
  • 请选择