logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

5分钟看懂Deepseek开源周之一:推理革命!DeepSeek开源FlashMLA黑科技:长文本处理提速5.76倍,中小公司也能玩转千亿模型

在一个普通的2月21日周五,把硅谷资本搅得天翻地覆的深度求索突然发布乐一个开源周的预告,一下子抓住了全行业的眼球。看得出来,这一周要来一波大的!

文章图片
5分钟看懂Deepseek开源周之三:开源核弹!DeepGEMM凭FP8+MoE双杀:1350 TFLOPS碾压cuBLAS,大模型训练成本暴降50%

深度求索开源周第三天:DeepGEMM代表了大模型底层计算从“依赖硬件厂商优化”向“开源算法驱动”的范式转移,其技术方向将显著降低大模型训练门槛、加速稀疏架构创新,并推动行业形成更开放的软硬件协同生态。短期看,它可能成为MoE模型训练的事实标准;长期而言,其设计理念或影响下一代AI芯片的指令集架构设计。

文章图片
#开源
5分钟看懂Deepseek开源周之六:Deepseek-V3/R1推理系统设计----揭开深度求索模型系统设计和运营成本之谜

目录前言开源第六天:Deepseek-V3/R1推理系统设计该框架主要分为两个阶段:预填充(Prefill)阶段和解码(Decode)阶段,并且每个阶段都有负载均衡器和服务。

文章图片
#开源
5分钟看看DeepSeek-R1做过的那些基准测试题(上)

MMLU(Massive Multitask Language Understanding)覆盖57个学科(如科学、人文、社科等)的英文选择题,要求模型具备广泛的跨领域知识。IFEval通过聚焦可验证指令(如字数限制、JSON格式等),实现自动化、客观的评估,帮助研究者明确模型在哪些类型指令上表现不足,并支持不同模型的对比分析。增加大学级别难题的比例:MMLU-Pro 增加了更多挑战性的大学水平考

文章图片
5分钟看懂Deepseek开源周之六:Deepseek-V3/R1推理系统设计----揭开深度求索模型系统设计和运营成本之谜

目录前言开源第六天:Deepseek-V3/R1推理系统设计该框架主要分为两个阶段:预填充(Prefill)阶段和解码(Decode)阶段,并且每个阶段都有负载均衡器和服务。

文章图片
#开源
5分钟看懂Deepseek开源周之三:开源核弹!DeepGEMM凭FP8+MoE双杀:1350 TFLOPS碾压cuBLAS,大模型训练成本暴降50%

深度求索开源周第三天:DeepGEMM代表了大模型底层计算从“依赖硬件厂商优化”向“开源算法驱动”的范式转移,其技术方向将显著降低大模型训练门槛、加速稀疏架构创新,并推动行业形成更开放的软硬件协同生态。短期看,它可能成为MoE模型训练的事实标准;长期而言,其设计理念或影响下一代AI芯片的指令集架构设计。

文章图片
#开源
5分钟看懂Deepseek开源周之三:开源核弹!DeepGEMM凭FP8+MoE双杀:1350 TFLOPS碾压cuBLAS,大模型训练成本暴降50%

深度求索开源周第三天:DeepGEMM代表了大模型底层计算从“依赖硬件厂商优化”向“开源算法驱动”的范式转移,其技术方向将显著降低大模型训练门槛、加速稀疏架构创新,并推动行业形成更开放的软硬件协同生态。短期看,它可能成为MoE模型训练的事实标准;长期而言,其设计理念或影响下一代AI芯片的指令集架构设计。

文章图片
#开源
5分钟看懂Deepseek开源周之三:开源核弹!DeepGEMM凭FP8+MoE双杀:1350 TFLOPS碾压cuBLAS,大模型训练成本暴降50%

深度求索开源周第三天:DeepGEMM代表了大模型底层计算从“依赖硬件厂商优化”向“开源算法驱动”的范式转移,其技术方向将显著降低大模型训练门槛、加速稀疏架构创新,并推动行业形成更开放的软硬件协同生态。短期看,它可能成为MoE模型训练的事实标准;长期而言,其设计理念或影响下一代AI芯片的指令集架构设计。

文章图片
#开源
5分钟看看DeepSeek-R1做过的那些基准测试题(上)

MMLU(Massive Multitask Language Understanding)覆盖57个学科(如科学、人文、社科等)的英文选择题,要求模型具备广泛的跨领域知识。IFEval通过聚焦可验证指令(如字数限制、JSON格式等),实现自动化、客观的评估,帮助研究者明确模型在哪些类型指令上表现不足,并支持不同模型的对比分析。增加大学级别难题的比例:MMLU-Pro 增加了更多挑战性的大学水平考

文章图片
5分钟看懂Deepseek开源周之四:Deepseek-V3/R1的“核弹级”优化并行策略----训练效率飙升545%!MoE负载不均时代终结

在预填充阶段,使用EP32和TP1配置,提示长度为4K,每个GPU的批处理大小为16K个令牌。利用两个微批次来重叠计算和全连接通信,确保注意力计算负载在两个微批次之间平衡。相同的提示可能会在这两个微批次之间分割,以平衡计算负载。在解码阶段,使用EP128、TP1和提示长度为4K的配置,每个GPU的批处理大小为128个请求。利用两个微批次来重叠计算和全连接通信。

文章图片
#开源#负载均衡
    共 20 条
  • 1
  • 2
  • 请选择