dinghushand999 个人主页

@dinghushand999

dinghushand999

2026-06-21 13:11:45 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

DeepSeek-V3：671B 参数的大模型，训练只花了不到 300 万 GPU 小时

DeepSeek-V3是一款671B参数的MoE架构开源大模型，仅激活37B参数进行推理。其创新点包括无辅助损失的负载均衡策略和多token预测训练目标，显著提升了训练效率。该模型在14.8万亿token数据上仅消耗278.8万GPU小时完成训练，且全程无崩溃。性能方面，MMLU得分87.1，编程能力突出，多项基准超越LLaMA3和Qwen2.5。支持多种部署方案（SGLang/LMDeploy等

#其他

DeepSeek-V3：671B 参数的大模型，训练只花了不到 300 万 GPU 小时

#其他

DeepSeek-V3：671B 参数的大模型，训练只花了不到 300 万 GPU 小时

#其他

到底了