
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
DeepSeek-V3:671B 参数的大模型,训练只花了不到 300 万 GPU 小时
DeepSeek-V3是一款671B参数的MoE架构开源大模型,仅激活37B参数进行推理。其创新点包括无辅助损失的负载均衡策略和多token预测训练目标,显著提升了训练效率。该模型在14.8万亿token数据上仅消耗278.8万GPU小时完成训练,且全程无崩溃。性能方面,MMLU得分87.1,编程能力突出,多项基准超越LLaMA3和Qwen2.5。支持多种部署方案(SGLang/LMDeploy等
DeepSeek-V3:671B 参数的大模型,训练只花了不到 300 万 GPU 小时
DeepSeek-V3是一款671B参数的MoE架构开源大模型,仅激活37B参数进行推理。其创新点包括无辅助损失的负载均衡策略和多token预测训练目标,显著提升了训练效率。该模型在14.8万亿token数据上仅消耗278.8万GPU小时完成训练,且全程无崩溃。性能方面,MMLU得分87.1,编程能力突出,多项基准超越LLaMA3和Qwen2.5。支持多种部署方案(SGLang/LMDeploy等
DeepSeek-V3:671B 参数的大模型,训练只花了不到 300 万 GPU 小时
DeepSeek-V3是一款671B参数的MoE架构开源大模型,仅激活37B参数进行推理。其创新点包括无辅助损失的负载均衡策略和多token预测训练目标,显著提升了训练效率。该模型在14.8万亿token数据上仅消耗278.8万GPU小时完成训练,且全程无崩溃。性能方面,MMLU得分87.1,编程能力突出,多项基准超越LLaMA3和Qwen2.5。支持多种部署方案(SGLang/LMDeploy等
到底了







