zsffuture 个人主页

@weixin_42398658

zsffuture

2022-07-29 15:21:00 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

ViT (Vision Transformer) ---- Text Generation（文本生成器）

使用RNN对文本预测假如输入的文本是：the cat sat on the ma 那么下一个字符什么呢？这里采用的是many to many模型，如下:此时模型的输出字符概率为：如何训练RNN模型？如上一段英语文字，我们采用分割的方法，这里采用输入的长度为40，滑动距离为3，即从开始到第40个字符用作输入，第41个字符用作标签数据label，如上：输入为：Machine learning is a

#transformer #深度学习 #人工智能

视觉大模型--deter的深入理解

但对于transformer用于目标检测领域的开创性模型，该模型言简意赅，但是但从论文理解，有很多细节都不清楚，尤其是解码器的query和二分图匹配(Bipartite Matching)和匈牙利算法(Hungarian Algorithm)相关，本文将根据代码详细介绍这一部分。

#transformer #人工智能 #深度学习 +1

transformer--编码器2(前馈全连接层、规范化层、子层链接结构、编码器层、编码器)

如图所示，输入到每个子层以及规范化层的过程中，还使用了残差链接(跳跃连接)，因此我们把这一部分结构整体叫做子层连接(代表子层及其链接结构)，在每个编码器层中，都有两个子层，这两个子层加上周围的链接结构就形成了两个子层连接结构.

#transformer #深度学习 #人工智能

transformer--输入（位置编码）

【代码】transformer--输入（位置编码）

#transformer #深度学习 #人工智能

opencv--形态学击中击不中

如果上面的话理解起来有些晦涩的话，我个人的理解是：定义一个待匹配的核，其中核内元素值为1，表示该位置需要匹配前景（白色）；使用该核对源图像扫描后，若匹配上述规则，在锚点位置记为255(非0)，若不匹配，则锚点位置记为0，最后得到的结果就是输出图像。总结一下击中和击不中，简单来说这个形态学操作就是选择你想要的形状，例如二值化后有很多的点，如果我只想保留符合要求的形状的二值化，此时该操作很有效，你可以

#opencv #人工智能 #计算机视觉

transformer--解码器

解码器的作用：根据编码器的结果以及上一次预测的结果,对下一次可能出现的值进行特征表示。使最后一维的向量中的数字缩放到0-1的概率值域内,并满足他们的和为1。通过对上一步的线性变化得到指定维度的输出,也就是转换维度的作用,测试代码放到最后代码。

#transformer

opencv--把cv::Mat数据转为二进制数据的保存和读取

【代码】opencv--把cv::Mat数据转为二进制数据的保存和读取。

#opencv #人工智能 #计算机视觉

opencv--3d数据拟合平面并对倾斜平面矫正

从矫正前的数据和矫正后的数据可以发现，平面得到了很好得了很好的矫正。

#opencv #3d #平面

使用opencv4.7.0部署yolov5

yolov5原理和部署原理就不说了，想了解的可以看看。

opencv--使用直方图找谷底进行确定分割阈值

有时这两个峰值会有部分重叠，即左侧峰值的下降部分和右侧峰值的上升部分存在叠加。通常可以把自然界的信号看做高斯信号，即一个峰值对应一个高斯信号，当直方图中的两个高斯信号在某个灰度区域叠加的时候，其叠加区就形成了一个圆滑的谷底，就很难找到一个确切的位置（最优二值化的灰度值）把这两个峰值分开。前景使得某个灰度区间的灰度值的数量急剧增加，就会产生一个峰值，同理背景会使另一个灰度区间的灰度值的数量急剧增加，

#opencv #人工智能 #计算机视觉

共 120 条

请选择