logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【大模型推理】SCORPIO: Serving the Right Requests at the Right Time for Heterogeneous SLOs(下:第三部分)

注意:TPOT(Time Per Output Token)即每输出令牌的时间,这里实际上就是ITL,因为ITL就是处理一个令牌的时间。但是,由于新请求加入后,批次中的请求的序列长度会随着生成令牌而增加,因此平均序列长度会动态变化。步中,处理整个批次所有令牌的总时间,然后除以令牌总数(即批次大小乘以步数)得到平均的每令牌处理时间(即TPOT)。本身就是整个批次处理一个令牌所需的时间(即每步的时间)

#学习
【大模型推理】splitfuse

https://www.hiascend.com/doc_center/source/zh/mindie/10RC3/mindieservice/servicedev/mindie_service0129.html

#算法#人工智能
【大模型学推理】MOE综述

动态路由提升了模型表达能力,但导致数据分发的不规则性和负载波动;而EP的All-to-All通信进一步放大了这一问题。解决这一矛盾的关键在于。,通过静态化路由、缓冲池设计、动态计算图优化等手段,在保持模型性能的同时提升计算资源利用率。EP引入“动态大shape”的本质是。在混合专家模型(MoE)中,

#学习
【DeepSeek]20250417学习FP8 ,H100架构

例如,假设两个FP8数相乘后的结果需要更多的位数来表示,这时候如果立即转换为FP8来累加,可能会导致精度损失或溢出。在最终存储结果时,可能再将其转换为较低的精度(如FP16或FP8),但中间过程的累加器保持高精度可以提升整体计算的准确性。如果输入矩阵是FP8,那么乘法操作的结果会是FP8乘以FP8的结果。两个8位浮点数相乘的结果可能超过8位的表示范围,所以需要扩展精度来保存中间结果。例如,在计算C

文章图片
#学习
【DeepSeek学C++】移动构造函数

静态成员属于类本身,而非静态成员属于类的每个实例。因此,当移动一个对象时,静态成员并不属于对象实例的一部分,所以不需要移动。移动操作是针对对象实例的,所以只处理非静态成员。接下来,用户可能需要具体的例子来理解这一点。例如,如果有类中包含静态成员变量,移动操作不会去处理它,因为静态成员是所有实例共享的,移动一个实例不会影响其他实例的静态成员值。

文章图片
#c++
【大模型训练】zero1 与zero2

想象一个四人小组合作写一本书,书有四章。每个人都写了所有四章的草稿。All-Reduce(ZeRO-1 的方式)收集和合并 (Reduce): 四个人把他们各自写的四章草稿全部交给一个编辑。编辑把所有版本合并,形成一本包含四章最终稿的书。复印和分发 (Broadcast): 编辑把这本完整的、包含四章最终稿的书,复印四份,然后每人发一本完整的。问题: 张三只需要负责校对第一章,但他却收到了一整本书

#人工智能#python#算法
deepseek mtp 源码解析

统一计算,然后拆分: 先用self.mtp一口气计算出所有层级的隐状态[H₀...Hₖ],然后用chunk拆分开。迭代滚动,匹配目标: 在循环中,通过不断地将labels向前滚动,巧妙地为每个MTP模块(H₁H₂, …)匹配上正确的未来目标(next_2next_3, …)。计算损失,但不立即反传: 为每个MTP模块计算出mtp_loss。梯度“嫁接”: 使用这个“自动求导函数钩子”,将mtp_l

#深度学习#人工智能
【RL】DAPO翻译

好的,这是对您提供的论文《DAPO: An Open-Source LLM Reinforcement Learning System at Scale》的全文翻译。摘要推理扩展(Inference scaling)赋予了大型语言模型(LLM)前所未有的推理能力,而强化学习(reinforcement learning, RL)是激发复杂推理的核心技术。然而,当前最先进的推理LLM(如OpenAI

#算法
【大模型训练】RL中与megatron max_step概念

是一个训练参数,表示训练数据集的遍历次数(epoch数)1。在标准的监督学习训练中,它控制整个数据集被训练多少轮。并传入max_steps作为总训练步数” 这句话,精确地描述了McaTrainermax_steps是驱动学习率调度策略的根本参数。调度器需要这个“全局视野”来规划从开始到结束的学习率变化。和max_steps是定义训练长度的两种方式,McaTrainer会根据你的配置,将其中一个转换

#人工智能#算法
【大模型训练】roll GRPO源码学习 ref_log_probs 计算原理

好的,我们来详细梳理一下 RLVR (Reinforcement Learning from Video/Valuable Responses) 的完整训练流程,并结合你提供的代码进行深入解析。假设我们现在有一批prompt,我们的目标是训练一个 Actor 模型,让它能根据这些prompt生成高质量的response。整个过程可以分解为以下几个宏观阶段,这与promptreferencecrit

#学习
    共 148 条
  • 1
  • 2
  • 3
  • 15
  • 请选择