
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
DeepSeek的使用方式和技巧
deepseek的介绍、使用方式和技巧

浙大 DeepSeek 线上课学习笔记
1. 采用MoE解决路由崩溃难题(1)传统的 Top-2 路由策略经典的 MoE(Mixture-of-Experts)架构,使用 Top-2 Routing 策略。由 N 个专家(Expert) 组成,路由器(Router)会为每个输入选择 K=2 个专家进行计算。计算结果通过加权求和后输出。(2)细粒度专家分割(Fine-grained Expert Segmentation)

浙大 DeepSeek 线上课学习笔记
1. 采用MoE解决路由崩溃难题(1)传统的 Top-2 路由策略经典的 MoE(Mixture-of-Experts)架构,使用 Top-2 Routing 策略。由 N 个专家(Expert) 组成,路由器(Router)会为每个输入选择 K=2 个专家进行计算。计算结果通过加权求和后输出。(2)细粒度专家分割(Fine-grained Expert Segmentation)

DeepSeek的使用方式和技巧
deepseek的介绍、使用方式和技巧

浙大 DeepSeek 线上课学习笔记
1. 采用MoE解决路由崩溃难题(1)传统的 Top-2 路由策略经典的 MoE(Mixture-of-Experts)架构,使用 Top-2 Routing 策略。由 N 个专家(Expert) 组成,路由器(Router)会为每个输入选择 K=2 个专家进行计算。计算结果通过加权求和后输出。(2)细粒度专家分割(Fine-grained Expert Segmentation)

DeepSeek的使用方式和技巧
deepseek的介绍、使用方式和技巧

到底了







