a1966565 个人主页

@a1966565

a1966565

2024-06-30 23:56:40 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

5分钟看懂Deepseek开源周之一：推理革命！DeepSeek开源FlashMLA黑科技：长文本处理提速5.76倍，中小公司也能玩转千亿模型

在一个普通的2月21日周五，把硅谷资本搅得天翻地覆的深度求索突然发布乐一个开源周的预告，一下子抓住了全行业的眼球。看得出来，这一周要来一波大的！

5分钟看懂Deepseek开源周之三：开源核弹！DeepGEMM凭FP8+MoE双杀：1350 TFLOPS碾压cuBLAS，大模型训练成本暴降50%

深度求索开源周第三天：DeepGEMM代表了大模型底层计算从“依赖硬件厂商优化”向“开源算法驱动”的范式转移，其技术方向将显著降低大模型训练门槛、加速稀疏架构创新，并推动行业形成更开放的软硬件协同生态。短期看，它可能成为MoE模型训练的事实标准；长期而言，其设计理念或影响下一代AI芯片的指令集架构设计。

#开源

5分钟看懂Deepseek开源周之六：Deepseek-V3/R1推理系统设计----揭开深度求索模型系统设计和运营成本之谜

目录前言开源第六天：Deepseek-V3/R1推理系统设计该框架主要分为两个阶段：预填充（Prefill）阶段和解码（Decode）阶段，并且每个阶段都有负载均衡器和服务。

#开源

5分钟看看DeepSeek-R1做过的那些基准测试题（上）

MMLU（Massive Multitask Language Understanding）覆盖57个学科（如科学、人文、社科等）的英文选择题，要求模型具备广泛的跨领域知识。IFEval通过聚焦可验证指令（如字数限制、JSON格式等），实现自动化、客观的评估，帮助研究者明确模型在哪些类型指令上表现不足，并支持不同模型的对比分析。增加大学级别难题的比例：MMLU-Pro 增加了更多挑战性的大学水平考

5分钟看懂Deepseek开源周之六：Deepseek-V3/R1推理系统设计----揭开深度求索模型系统设计和运营成本之谜

#开源

5分钟看懂Deepseek开源周之三：开源核弹！DeepGEMM凭FP8+MoE双杀：1350 TFLOPS碾压cuBLAS，大模型训练成本暴降50%

#开源

5分钟看懂Deepseek开源周之三：开源核弹！DeepGEMM凭FP8+MoE双杀：1350 TFLOPS碾压cuBLAS，大模型训练成本暴降50%

#开源

5分钟看懂Deepseek开源周之三：开源核弹！DeepGEMM凭FP8+MoE双杀：1350 TFLOPS碾压cuBLAS，大模型训练成本暴降50%

#开源

5分钟看看DeepSeek-R1做过的那些基准测试题（上）

5分钟看懂Deepseek开源周之四：Deepseek-V3/R1的“核弹级”优化并行策略----训练效率飙升545%！MoE负载不均时代终结

在预填充阶段，使用EP32和TP1配置，提示长度为4K，每个GPU的批处理大小为16K个令牌。利用两个微批次来重叠计算和全连接通信，确保注意力计算负载在两个微批次之间平衡。相同的提示可能会在这两个微批次之间分割，以平衡计算负载。在解码阶段，使用EP128、TP1和提示长度为4K的配置，每个GPU的批处理大小为128个请求。利用两个微批次来重叠计算和全连接通信。

#开源 #负载均衡

共 20 条

请选择