2401_86086758 个人主页

@2401_86086758

2401_86086758

2024-11-27 11:40:10 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

一文彻底看懂DEEPSEEK为何能够如此优秀（ds的深度解析）

DeepSeek（DS）作为自主训练的AI模型，其核心创新在于摒弃传统人类反馈强化学习（RLHF），通过“反复思考”机制促进模型自主推理。采用混合专家架构（MoE）与多头潜在注意力（MLA），显著提升效率并降低显存消耗。其开源特性（公开模型权重与代码）及极低训练成本（百倍优于闭源模型），使性能接近甚至超越GPT-4。创新点包括无辅助损失负载均衡、多Token预测（MTP）及FP8混合精度训练，结合

#人工智能 #语言模型

DeepSeek-V3 技术报告核心要点

本文主要介绍了deepseek发布的技术报告的核心要点的总结，以及如何用通俗语言来描述ds的真正的形象。

#人工智能 #语言模型

一文彻底看懂DEEPSEEK为何能够如此优秀（ds的深度解析）

#人工智能 #语言模型

到底了