logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

DeepSeek的使用方式和技巧

deepseek的介绍、使用方式和技巧

文章图片
#人工智能
浙大 DeepSeek 线上课学习笔记

1. 采用MoE解决路由崩溃难题(1)传统的 Top-2 路由策略经典的 MoE(Mixture-of-Experts)架构,使用 Top-2 Routing 策略。由 N 个专家(Expert) 组成,路由器(Router)会为每个输入选择 K=2 个专家进行计算。计算结果通过加权求和后输出。(2)细粒度专家分割(Fine-grained Expert Segmentation)

文章图片
浙大 DeepSeek 线上课学习笔记

1. 采用MoE解决路由崩溃难题(1)传统的 Top-2 路由策略经典的 MoE(Mixture-of-Experts)架构,使用 Top-2 Routing 策略。由 N 个专家(Expert) 组成,路由器(Router)会为每个输入选择 K=2 个专家进行计算。计算结果通过加权求和后输出。(2)细粒度专家分割(Fine-grained Expert Segmentation)

文章图片
DeepSeek的使用方式和技巧

deepseek的介绍、使用方式和技巧

文章图片
#人工智能
浙大 DeepSeek 线上课学习笔记

1. 采用MoE解决路由崩溃难题(1)传统的 Top-2 路由策略经典的 MoE(Mixture-of-Experts)架构,使用 Top-2 Routing 策略。由 N 个专家(Expert) 组成,路由器(Router)会为每个输入选择 K=2 个专家进行计算。计算结果通过加权求和后输出。(2)细粒度专家分割(Fine-grained Expert Segmentation)

文章图片
#学习
DeepSeek的使用方式和技巧

deepseek的介绍、使用方式和技巧

文章图片
#人工智能
到底了