执笔论英雄个人主页

@qq_38662930

执笔论英雄

2023-02-19 17:16:39 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

局部搜索算法--模拟退火求解MAX-SAT

来源:这里是引用

【大模型推理】PD分离mooncake 学习

你理解的核心完全正确：Prefill阶段之所以要“着急忙慌”地、Layer-wise异步地将KVCache移出GPU（Offload到CPU或Transfer给Decode实例），其根本驱动力在于。

#学习

【分布式训练】Megatron-LM 中 Context Parallel原理：如何结合flash_attnV2和Ring attention

第二步：Megatron-LM 中 Context Parallel原理, 如何实现负载均衡的，数据对称重组，并移除causal masking中不必要的计算，如何修正F2。第一步：先学习flash_attn和Ring Attntion。第三步：修正F2 的原理及公式推导。

#学习

【大模型训练】中短序列attention 和MOE层并行方式

贯穿两层) 简化了实现，并最大化利用了设备间的通信链路（组内通信通常比跨组快）。在输入长度 ≤16K 的场景下，这种配置有效降低了 Attention 的通信压力并提升了其单卡计算效率，同时通过。的通信与计算实现方式，并结合你的具体配置（DP=4, TP=4 for Attention;MoE 层的输入来自于前一层（如前一个 Attention 或 FFN 层）。解决了 MoE 负载不均的核心痛点

#人工智能

【DeepSeek 学习推理】Llumnix: Dynamic Scheduling for Large Language Model Serving

为此，我们提出了Llumnix ——一种针对LLM服务的系统，它通过跨多个模型实例的运行时动态重调度来应对异构且不可预测的请求。评估表明，与现有最先进的LLM服务系统相比，Llumnix将尾延迟降低了一个数量级，高优先级请求加速达1.5倍，且在保持相似尾延迟的情况下实现高达36%的成本节约。重调度通过响应请求实际内存增长，补充了初始调度的不足。在大多数时间段内，集群总空闲内存足以容纳至少三个实例

#学习 #语言模型 #人工智能

【Deepseek学习大模型推理】MOONCAKE: A KVCache-centric Architecture调度（中）调度

如图2所示，

#学习

【Deepseek学习大模型推理】MOONCAKE: A KVCache-centric Architecture实验部分（下）

如前所述，根据Kimi的历史统计数据，MOONCAKE在A800和H800集群上分别实现了比基于vLLM的原有系统多处理115%和107%的请求量。具体而言，我们测量每个请求的首令牌生成时间（TTFT）和尾部延迟（TBT），其中TBT通过计算最长10%的token到达间隔的平均值确定。如§2所述，TTFT阈值设为30秒，TBT阈值根据场景分别设为100 ms、200 ms和300 ms。若请求的T

#学习

【Deepseek学习大模型推理】MOONCAKE: A KVCache-centric Architecture 第一部分引言部分

作为模型即服务（MaaS）提供商，Kimi [5] 的核心目标之一是解决一个包含多重复杂约束的优化问题：优化目标是最大化整体有效吞吐量（直接影响收入），而约束条件则体现为不同层级的 SLOs。该平台以 KVCache 为中心，采用分离式架构——不仅将预填充（prefill）和解码（decoding）集群解耦，还通过高效利用 GPU 集群中未被充分利用的 CPU、DRAM、SSD 和网卡（NIC）资

#学习 #人工智能 #大数据

【【大模型推理】SCORPIO: Serving the Right Requests at the Right Time for Heterogeneous SLOs in LLM（第四部）】

基于信用的批处理机制通过TRP动态分配资源，将严格SLO请求的优先级显式编码到信用积累速率中，同时利用信用扣除机制实现细粒度的批次控制。这一方法在保证服务质量的同时，最大化了系统吞吐量。

#算法 #人工智能 #机器学习

【deepseek】学cuda 基于WMMA的半精度矩阵乘法（HGEMM）

难点在于划分warp。涉及三次划分warp。全局内存到共享内存如何划分warp?利用TensorCor 即wmma 接口实现16*16 矩阵相乘时，如何划分warp？将计算结果，写回全局内存，怎样划分warp 实现并行？这三次划分warp 可以独立的划分。原因在于，三次操作间已经__syncthreads()同步过了。代码中，后两次划分warp方式可以保持一致。笔者学习过程中，对数据搬用划分可以

#矩阵 #c++

共 62 条

请选择