logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

deepseek 系列模型演进

Coder解决的是“代码基座怎么做”;Coder-V2解决的是“如何把主线 MoE/长上下文能力迁进代码”。代码线对主线的最大反哺有两点:为 V3/V3.2 的 coding benchmark 和 code agent 打底;证明 MoE 不仅适合通用语言,也适合高结构化代码分布。解决的是“数学数据 + 数学 RL”;解决的是“数学 reasoning 如何自证正确”。GRPO 从这条线出生,最

文章图片
#人工智能#算法#机器学习
deepseek 系列模型演进

Coder解决的是“代码基座怎么做”;Coder-V2解决的是“如何把主线 MoE/长上下文能力迁进代码”。代码线对主线的最大反哺有两点:为 V3/V3.2 的 coding benchmark 和 code agent 打底;证明 MoE 不仅适合通用语言,也适合高结构化代码分布。解决的是“数学数据 + 数学 RL”;解决的是“数学 reasoning 如何自证正确”。GRPO 从这条线出生,最

文章图片
#人工智能#算法#机器学习
cs336Lecture 5 and7

相反,如果一个线程需要访问散落的数据,那就不得不写入global memory,会非常慢。当一个 warp 中的所有线程同时执行一个 load instruction,并且它们访问的内存地址落在同一个 burst section 内时,这些内存访问可以被合并为一个 DRAM 请求。SM有很多控制逻辑,它可以决定执行什么,SP的操作是接受相同的指令,并将其应用于许多不同的数据。GPU有大量的comp

#java#redis#缓存
位置编码(position embedding)

在直角坐标系中,对于向量x和y来说,其点乘满足公式xT⋅y∣∣x∣∣⋅∣∣y∣∣⋅cosγ。这个夹角就是两个向量之间的相对向量。只要两个向量的模长不变,夹角不变,无论在坐标系的哪个位置,点乘的结果就不会发生变化。在线性代数中,矩阵是可以表示线性变换的。对于二位向量x,绕原点旋转m弧度后,变成Rm​⋅x。其中,矩阵Rm​Rm​cosmsinm​−sinmcosm​进一步可得到RmT​⋅Rn​Rn−m

文章图片
#深度学习#nlp#transformer +1
预训练语言模型

Encoder 块中是堆叠起来的 N 层 Encoder Layer,BERT 有两种规模的模型,分别是 base 版本(12层 Encoder Layer,768 的隐藏层维度,总参数量 110M),large 版本(24层 Encoder Layer,1024 的隐藏层维度,总参数量 340M)。对于不同的NLP任务,每次输入都会加上一个任务描述前缀。MLM 的思路也很简单,在一个文本序列中随

文章图片
#语言模型#人工智能#自然语言处理
2023天梯赛L3-2 完美树

的代价改变颜色,求将整棵树中黑色节点数量与白色节点数量相差不超过1的最小代价。给定一颗树,每个节点颜色为0,或1,0代表黑色,1代表白色。为根的子树中0、1节点数量相等。若为奇数,我们需要讨论。为根的子树中0节点数量大于1。为根的子树中0节点数量小于1。显然,只有子树大小为偶数时。还有一个问题是假如我们选了。即可,可以看代码如何实现。是偶数,我们只需考虑计算。的颜色,0和1数量相等。,如何选使总代

文章图片
#算法
到底了