logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

使用LLM模型的tokenizer报错AttributeError: ‘dict‘ object has no attribute ‘model_type‘

把transformers版本改一下。(报错时我使用的是transformers== 4.57.2)改成transformers==4.57.1即可。

#人工智能#pytorch#python
【深度学习】pytorch计算KL散度、kl_div

这里有一些细节需要注意,第一个参数与第二个参数都要进行softmax(dim=-1),目的是使两个概率分布的所有值之和都为1,若不进行此操作,如果x或y概率分布所有值的和大于1,则可能会使计算的KL为负数。(至于为什么,大概是为了方便pytorch的代码组织,pytorch定义的损失函数都调用handle_torch_function函数,方便权重控制等),才能得到正确结果。其中kl_div接收三

文章图片
#深度学习#pytorch#人工智能
【面经】小西科技,后端,南京,

synchronized和lock的区别。springboot和spring的区别。tcp/udp区别,为什么udp不可靠。为什么springboot开箱即用。springboot如何简化开发的。主从数据库如果数据不一致怎么办。平衡树和哈希表的查找速度O。http和HTTPS的区别。操作系统socket是啥。用户下单如何避免重复下单。数据库索引是怎么实现的。什么时候会出现索引失效。https的s代

文章图片
#spring#java
【注意力机制】【Transformer】深度学习中的注意力机制详解、self-attention

无论是我们的语言处理、还是图像处理等,我们的输入都可以看作是一个向量。通过Model最终输出结果。这里,我们的vector大小是不会改变的。然而,我们有可能会遇到这样的情况:输入的sequence的长度是不定的怎么处理?声音信号:经过处理,把一段声音变成向量。图:每个节点转化为向量图:分子结构中的每个原子转化为one-hot。

文章图片
#深度学习#自然语言处理#人工智能
【深度学习】pytorch计算KL散度、kl_div

这里有一些细节需要注意,第一个参数与第二个参数都要进行softmax(dim=-1),目的是使两个概率分布的所有值之和都为1,若不进行此操作,如果x或y概率分布所有值的和大于1,则可能会使计算的KL为负数。(至于为什么,大概是为了方便pytorch的代码组织,pytorch定义的损失函数都调用handle_torch_function函数,方便权重控制等),才能得到正确结果。其中kl_div接收三

文章图片
#深度学习#pytorch#人工智能
【深度学习】【BN】batch normalization(批量归一化)详解

批量归一化固定小批量中的均值和方差,后学习出适合的偏移和缩放可以加速收敛速度,但一般不改变模型精度。所以,你可以通过加入BN来调高你的学习率。也许你之前的学习率是0.01,加入BN后你可以调整到0.1。原因:之前梯度太大,上层梯度爆炸;梯度太小,下层更新慢。加入之后,每层放在相似的分布,可以用一个较大的学习率。

文章图片
#深度学习#人工智能
【自然语言处理】【深度学习】文本向量化、one-hot、word embedding编码

因为文本不能够直接被模型计算,所以需要将其转化为向量。

文章图片
#自然语言处理#深度学习
【机器学习】【概率论】【损失熵】【KL散度】信息量、香农熵和KL散度的计算

对于一个事件:小概率 --> 大信息量大概率 --> 小信息量独立事件的信息量可以相加Ixlog2​px1​−log2​px))E.g.:ph0.5Ip​hlog2​0.51​1pt0.5Ip​tlog2​0.51​1qh0.2Iq​hlog2​0.21​2.32qt0.8Iq​tlog2​0.81​0.32。

文章图片
#机器学习#概率论#人工智能
【Python】【深度学习】使用argparse模块和JSON管理深度学习模型的超参数

其实思路就是利用argparse模块,给parse增加一个dir参数,这个参数用来存放超参数json文件夹所在路径。这样,我们训练模型时,只需要给好超参数文件所在位置即可,而具体的超参数可以直接在json文件中修改即可。

文章图片
#python#深度学习#json +1
【深度学习】pytorch计算KL散度、kl_div

这里有一些细节需要注意,第一个参数与第二个参数都要进行softmax(dim=-1),目的是使两个概率分布的所有值之和都为1,若不进行此操作,如果x或y概率分布所有值的和大于1,则可能会使计算的KL为负数。(至于为什么,大概是为了方便pytorch的代码组织,pytorch定义的损失函数都调用handle_torch_function函数,方便权重控制等),才能得到正确结果。其中kl_div接收三

文章图片
#深度学习#pytorch#人工智能
    共 19 条
  • 1
  • 2
  • 请选择