
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
DeepSeek系列模型的技术创新与训练优化
无损负载均衡策略:采用动态调整的专家选择机制,结合专家间流量均衡算法(如可微分软性负载均衡),避免专家模块的“马太效应”(部分专家过载而其他专家闲置),确保训练稳定性和计算资源的高效分配。异构并行策略:结合数据并行、专家并行(MoE层分片)和流水线并行技术,支持万卡级集群的高效扩展。训练成本与能效比优势以175B参数的DeepSeek-V3为例,其训练成本约为传统密集模型的1/3,推理能耗降低60
到底了







