logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

神经网络学习笔记5——Swin-Transformer网络

Swim Transformer是特为视觉领域设计的一种分层Transformer结构。Swin 的两大特性是滑动窗口和分层表示。滑动窗口在局部不重叠的窗口中计算自注意力,并允许跨窗口连接。分层结构允许模型适配不同尺度的图片,并且计算复杂度与图像大小呈线性关系,也因此被人成为披着transformer皮的CNN。

文章图片
#神经网络#学习#transformer
视觉学习笔记12——百度飞浆框架的PaddleOCR 安装、标注、训练、测试以及onnx转换

飞桨首次开源文字识别模型套件PaddleOCR,目标是打造丰富、领先、实用的文本识别模型/工具库。 PaddleOCR是一个基于飞桨开发的OCR(Optical Character Recognition,光学字符识别)系统。其技术体系包括文字检测、文字识别、文本方向检测和图像处理等模块。

文章图片
#计算机视觉#nlp#深度学习 +3
视觉学习笔记10——opencv的卸载、安装与多版本管理

之前在ubuntu18系统上已经安装了opencv4.4.0和扩展库opencv_contrib,但是最近需要跑一个SLAM的源代码,而这个SLAM系统是基于opencv3.4.2开发的,直接运行会出现很多opencv版本不兼容的问题。因此想再安装opencv3.4.2和扩展库opencv_contrib3.4.2,过程中出现了很多问题,写这篇文章记录一下。

文章图片
#opencv#学习#计算机视觉
神经网络学习笔记6——生成式AI绘画背后的的GAN与Diffusion初解

AI绘画,目前AI领域里最有话题性的技术,上一个这么火的话题是swin transformer网络,而2022年8月Jason Allen凭借AI绘画作品《太空歌剧院》拿下科罗拉多州博览会美术竞赛一等奖,瞬间引爆社会争论。后来10月19日,Jasper.ai 宣布完成了 1.25 亿美元的A 轮融资,估值达到了 15 亿美金,而 Jasper AI 从产品上线到现在也就 18 个月时间。

文章图片
#神经网络#AI作画
视觉学习笔记4——学习研究ORB-SLAM3

ORB-SLAM3是第一个能够让单目、立体和RGB-D相机和针孔和鱼眼镜头模型解耦进行视觉、视觉惯性和多地图SLAM的系统。

文章图片
#学习
到底了