
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
这篇按顺序梳理DeepseekMoE、Deepseek-V2、Deepseek-V3到Deepseek R1这4篇论文。Deepseek的模型都采用了MoE架构的,因此开始具体论文分析之前,先分析一下MoE架构稀疏型模型和传统的密集型模型区别。

AI科普(二):人工智能的根本任务一、结论先行二、分类任务三、回归任务一、结论先行人工智能要处理的任务多种多样,比如人脸识别、垃圾邮件检测、电源票房预测、降雨量预测等等。但是这些任务背后的根本任务只有两类,就是分类与回归。分类任务:模型输出是对象的所属类别,数据类型是离散数据。例如预测一封邮件是否是垃圾邮件、预测照片中的人是男性还是女性还是偏中性?这种结果只有两个值或者多个值的问题,我们可以把每个
AI因你而升温,记得加星标哦!大家好,我是泰哥。本文可谓是千呼万唤使出来,很多同学问我,AI方向的知识多而杂,哪些该重点学习?学习路径又是怎么样的呢?今天,我将自己的学习路径及我所参考的资料全部免费分享出来,愿大家的AI学习进阶之路上多一些“温度”。学习途径在我学习人工智能的过程中,主要有以下两个途径:首先是B站。我将所有知识点所推荐的视频链接直接贴设为了超链接,点击可直达教程。第二是书籍。视频的

AI因你而升温,记得加星标哦!大家好,我是泰哥。最近《人工智能训练师国家职业技能标准》(文末复制链接下载)发布后被刷屏,我就网上热门观点与大家分享,同时谈谈我个人的看法。原文链接:新发布的《人工智能训练师国家职业技能标准》该如何解读?01 作者:桔了个仔你属于什么级别《人工智能训练师技能标准》一共18页,大家可以直接跳到最后两页,它把把人工智能训练师分为了五级,大家可以看看自己所拥有的技能属于哪级

结论先行在各大网站上搜索人工智能的定义可谓各不相同,但核心思想就是实现让计算机拥有人类的智能。如果让我用一句话通俗总结AI是什么,我认为它分为两步,那就是先让计算机进行学习,然后让计算机预测未知。AI早期应用AI在互联网中的早期应用有识别垃圾邮件。我们的邮箱每天会收到众多邮件,而把垃圾邮件剔除就可以大大节约人们在垃圾邮件中浪费的时间。我们传统的方法是制定规则,比如一篇文章中大量出现“免费”“特价”

AI因你而升温,记得加星标哦!大家好,我是泰哥。最近《人工智能训练师国家职业技能标准》(文末复制链接下载)发布后被刷屏,我就网上热门观点与大家分享,同时谈谈我个人的看法。原文链接:新发布的《人工智能训练师国家职业技能标准》该如何解读?01 作者:桔了个仔你属于什么级别《人工智能训练师技能标准》一共18页,大家可以直接跳到最后两页,它把把人工智能训练师分为了五级,大家可以看看自己所拥有的技能属于哪级

原文链接:为什么线代在人工智能中被广泛应用?大家好,我是泰哥。在机器学习建模过程中,经常会使用矩阵运算以提升效率,在深度学习中,往往会涉及矩阵的集合运算,就是三维或四维数据的计算。它们的基础就是线性代数理论,而线代基础的核心又是矩阵,矩阵的本质其实是线性方程!是不是很神奇?本文首先介绍矩阵的构造,然后详解矩阵的运算与本质意义。一、矩阵形变的构造矩阵的形变与构造的方法与二维张量的方法相同。# 创建一

原文链接:Pytorch库的基本架构介绍很多同学说每次使用PyTorch时都需要导入很多模块,非常混乱,今天我就将PyTorch常用的模块做一个总结梳理。首先要说明的是PyTorch这是torch的Python版本,所以导入的是torch而不是Pytorch:import torch1 运行基础torch.tensor:基础数据结构torch.autograd:自动微分模块2 torch.util

在DP中,每个GPU上都拷贝一份完整的模型,每个GPU上处理batch的一部分数据,所有GPU算出来的梯度传到master进行累加后,再传回各GPU用于更新参数DDP通过定义网络环拓扑的方式,将通讯压力均衡地分到每个GPU上,使得跨机器的数据并行(DDP)得以高效实现DP和DDP的总通讯量相同,但因负载不均的原因,DP需要耗费更多的时间搬运数据最后请大家记住Ring-AllReduce的方法,因为

你知道y=kx+b,你就知道了为什么神经网络可以(理论上)拟合任何函数。








