sinat_32037309 个人主页

@sinat_32037309

sinat_32037309

2025-02-18 15:48:39 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

DeepSeek系列模型的技术创新与训练优化

无损负载均衡策略：采用动态调整的专家选择机制，结合专家间流量均衡算法（如可微分软性负载均衡），避免专家模块的“马太效应”（部分专家过载而其他专家闲置），确保训练稳定性和计算资源的高效分配。异构并行策略：结合数据并行、专家并行（MoE层分片）和流水线并行技术，支持万卡级集群的高效扩展。训练成本与能效比优势以175B参数的DeepSeek-V3为例，其训练成本约为传统密集模型的1/3，推理能耗降低60

#算法

到底了