jangyi. 个人主页

@weixin_60896526

jangyi.

2023-04-10 19:22:09 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

deepseek-R1技术报告解析

冷启动SFT。

#python #深度学习 #transformer

位置编码(position embedding)

在直角坐标系中，对于向量x和y来说，其点乘满足公式xT⋅y∣∣x∣∣⋅∣∣y∣∣⋅cosγ。这个夹角就是两个向量之间的相对向量。只要两个向量的模长不变，夹角不变，无论在坐标系的哪个位置，点乘的结果就不会发生变化。在线性代数中，矩阵是可以表示线性变换的。对于二位向量x，绕原点旋转m弧度后，变成Rm⋅x。其中，矩阵RmRmcosmsinm−sinmcosm进一步可得到RmT⋅RnRn−m

#深度学习 #nlp #transformer +1

deepseek 系列模型演进

Coder解决的是“代码基座怎么做”；Coder-V2解决的是“如何把主线 MoE/长上下文能力迁进代码”。代码线对主线的最大反哺有两点：为 V3/V3.2 的 coding benchmark 和 code agent 打底；证明 MoE 不仅适合通用语言，也适合高结构化代码分布。解决的是“数学数据 + 数学 RL”；解决的是“数学 reasoning 如何自证正确”。GRPO 从这条线出生，最

相反，如果一个线程需要访问散落的数据，那就不得不写入global memory，会非常慢。当一个 warp 中的所有线程同时执行一个 load instruction，并且它们访问的内存地址落在同一个 burst section 内时，这些内存访问可以被合并为一个 DRAM 请求。SM有很多控制逻辑，它可以决定执行什么，SP的操作是接受相同的指令，并将其应用于许多不同的数据。GPU有大量的comp

#java #redis #缓存

deepseek-R1技术报告解析

冷启动SFT。

#python #深度学习 #transformer

位置编码(position embedding)

#深度学习 #nlp #transformer +1

预训练语言模型

Encoder 块中是堆叠起来的 N 层 Encoder Layer，BERT 有两种规模的模型，分别是 base 版本（12层 Encoder Layer，768 的隐藏层维度，总参数量 110M），large 版本（24层 Encoder Layer，1024 的隐藏层维度，总参数量 340M）。对于不同的NLP任务，每次输入都会加上一个任务描述前缀。MLM 的思路也很简单，在一个文本序列中随

#语言模型 #人工智能 #自然语言处理

2023天梯赛L3-2 完美树

的代价改变颜色，求将整棵树中黑色节点数量与白色节点数量相差不超过1的最小代价。给定一颗树，每个节点颜色为0，或1，0代表黑色，1代表白色。为根的子树中0、1节点数量相等。若为奇数，我们需要讨论。为根的子树中0节点数量大于1。为根的子树中0节点数量小于1。显然，只有子树大小为偶数时。还有一个问题是假如我们选了。即可，可以看代码如何实现。是偶数，我们只需考虑计算。的颜色,0和1数量相等。，如何选使总代

#算法

到底了