logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CLIP与Chinese-CLIP:多模态预训练模型解读和图文检索体验

CLIP是2021年OpenAI提出的基于图文对比学习的多模态预训练模型,具备强大的zero-shot迁移能力。数据集:来源于互联网上搜集的4亿个image-text对,涵盖了50万个qurey,并尽量保持不同qurey的数据量均衡。核心思想:将image-text对当做一个整体,基于对比学习的方法,模型训练时尽可能地提高image与对应text的特征相似度,尽可能的降低image与不配对text

文章图片
#深度学习#计算机视觉
Pytorch中的CrossEntropyLoss()函数案例解读和结合one-hot编码计算Loss

使用Pytorch框架进行深度学习任务,特别是分类任务时,经常会用到如下:import torch.nn as nncriterion = nn.CrossEntropyLoss().cuda()loss = criterion(output, target)即使用torch.nn.CrossEntropyLoss()作为损失函数。那nn.CrossEntropyLoss()内部到底是啥??nn.

目标检测中NMS和mAP指标中的的IoU阈值和置信度阈值

有时候路走的太远,会忘了为什么要出发。学习亦如是在目标检测中,经常看到置信度阈值和IoU阈值这两个关键参数,且NMS计算和mAP计算中都会有这两个,那它们的区别是什么?本文就这个问题做一次总结。NMS模型预测会输出很多框,比如同一个目标会有很多框对应,NMS的作用是删除重复框,保留置信度分数最大的框。mAP...

文章图片
#目标检测#计算机视觉#深度学习
AC-FPN解读 --- Attention-guided Context Feature Pyramid Network for Object Detection

论文:https://arxiv.org/pdf/2005.11475.pdf代码:https://github.com/Caojunxu/AC-FPN摘要对于目标检测,如何解决高分辨率输入上的特征图分辨率与感受野之间的矛盾要求仍然是一个悬而未决的问题。在本文中,为了解决这个问题,我们建立了一种新颖的体系结构,称为注意力导向的上下文特征金字塔网络(AC-FPN),该体系结构通过集成注意力导向的多路

#目标检测#计算机视觉#深度学习
【Resnet最强变体】ResNeSt学习笔记 --- ResNeSt: Split-Attention Networks

代码:https://github.com/zhanghang1989/ResNeSt论文:https://hangzhang.org/files/resnest.pdf尽管图像分类模型最近不断发展,但是由于其简单而模块化的结构,大多数下游应用程序(例如目标检测和语义分割)仍将ResNet变体用作backbone。ResNeSt展示了一个简单的模块:Split-Attention,该块可实现跨..

#计算机视觉#深度学习
YOLOv4实战尝鲜 --- 教你从零开始训练自己的数据集(安全头盔佩戴识别检测)

本文代码基于:https://github.com/ultralytics/yolov3首先介绍数据集,来源于AI研习设的一个比赛,见链接:https://god.yanxishe.com/32

文章图片
#目标检测#计算机视觉#深度学习
Pytorch学习(六) --- 模型训练的常规train函数flow及其配置

前几个Pytorch学习博客写了使用Pytorch的数据读取、数据增强、数据加载、模型定义,当完成上面几个步骤,就可以进行模型训练了。使用Pytorch进行模型训练,通常可以将train过程写成一个函数,简单的train写法常规的传入参数如下:数据加载器DataLoader目标模型model损失函数criterion优化器optimizer较为简单的train函数可以写为如下:d...

安装nccl教程

运行百度的paddle多卡训练需要依然nccl,所以需要安装nccl,本文提供压缩包的nccl安装方式,亲测可用1.通过英伟达nccl下载nccl 的txz安装包2.解压nccl压缩包,得到两个文件夹include 和 lib, 如图:3.将include文件夹下的文件都复制到cuda文件夹下对应的inlcude中去sudo cp include/* /usr/local/cuda-11.0/in

#深度学习#linux
到底了