logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

一文搞懂DeepSeek核心技术-MTP(Multi-Token Prediction)

MTP 的核心思想是让模型一次性预测多个 token,以提升模型的训练效率、生成质量和推理速度。模型不仅要学习预测下一个 token 的能力,还需要同时具备预测下 n 个token的能力。

文章图片
#人工智能#自然语言处理#算法 +2
一文搞懂DeepSeek核心技术-多头潜在注意力(MLA)

大家好,我是皮先生!!本文将深入剖析模型核心技术-(MLA)的工作原理、技术创新,希望对大家的理解有帮助。

文章图片
#人工智能#自然语言处理#算法 +1
一文搞懂DeepSeek核心技术-MTP(Multi-Token Prediction)

MTP 的核心思想是让模型一次性预测多个 token,以提升模型的训练效率、生成质量和推理速度。模型不仅要学习预测下一个 token 的能力,还需要同时具备预测下 n 个token的能力。

文章图片
#人工智能#自然语言处理#算法 +2
一文搞懂DeepSeek核心技术-GRPO

Deepseek的GRPO(群组相对策略优化)算法是一种创新的强化学习方法,专为提升大型语言模型的推理能力而设计。它通过基于群组的评估方法和相对奖励优化机制,有效增强了模型的推理性能。与传统PPO算法相比,GRPO无需依赖独立价值模型,从而显著降低了内存和计算成本,同时提高了训练过程的稳定性。

文章图片
#人工智能#机器学习#深度学习 +2
一文搞懂DeepSeek核心技术-DeepSeekMoE

DeepSeekMoE 架构是一种精巧的设计,它借鉴了“分而治之”的思想,通过引入专业化的路由专家和通用的共享专家,实现了更精细化、更灵活的处理。创新地提出了无额外损耗负载均衡策略,通过动态调整可学习的偏置项,进一步提升了 MoE 架构的效率和性能。

文章图片
#人工智能#自然语言处理#算法 +2
一文搞懂DeepSeek核心技术-多头潜在注意力(MLA)

大家好,我是皮先生!!本文将深入剖析模型核心技术-(MLA)的工作原理、技术创新,希望对大家的理解有帮助。

文章图片
#人工智能#自然语言处理#算法 +1
到底了