logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

DeepSeek-V3:671B 参数的大模型,训练只花了不到 300 万 GPU 小时

DeepSeek-V3是一款671B参数的MoE架构开源大模型,仅激活37B参数进行推理。其创新点包括无辅助损失的负载均衡策略和多token预测训练目标,显著提升了训练效率。该模型在14.8万亿token数据上仅消耗278.8万GPU小时完成训练,且全程无崩溃。性能方面,MMLU得分87.1,编程能力突出,多项基准超越LLaMA3和Qwen2.5。支持多种部署方案(SGLang/LMDeploy等

#其他
DeepSeek-V3:671B 参数的大模型,训练只花了不到 300 万 GPU 小时

DeepSeek-V3是一款671B参数的MoE架构开源大模型,仅激活37B参数进行推理。其创新点包括无辅助损失的负载均衡策略和多token预测训练目标,显著提升了训练效率。该模型在14.8万亿token数据上仅消耗278.8万GPU小时完成训练,且全程无崩溃。性能方面,MMLU得分87.1,编程能力突出,多项基准超越LLaMA3和Qwen2.5。支持多种部署方案(SGLang/LMDeploy等

#其他
DeepSeek-V3:671B 参数的大模型,训练只花了不到 300 万 GPU 小时

DeepSeek-V3是一款671B参数的MoE架构开源大模型,仅激活37B参数进行推理。其创新点包括无辅助损失的负载均衡策略和多token预测训练目标,显著提升了训练效率。该模型在14.8万亿token数据上仅消耗278.8万GPU小时完成训练,且全程无崩溃。性能方面,MMLU得分87.1,编程能力突出,多项基准超越LLaMA3和Qwen2.5。支持多种部署方案(SGLang/LMDeploy等

#其他
到底了