logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【读点论文】YOLOv4: Optimal Speed and Accuracy of Object Detection,讲明目标检测结构,分析先进的涨点tricks,实现一种精度与速度的平衡

三张特征图就是整个Yolo输出的检测结果,检测框位置(4维)、检测置信度(1维)、类别(80维)都在其中,加起来正好是85维。特征图最后的维度85,代表的就是这些信息,而特征图其他维度N × N × 3,N × N代表了检测框的参考位置信息,3是3个不同尺度的先验框。

#目标检测#深度学习#计算机视觉 +1
【读点论文】A Neural Algorithm of Artistic Style 通过分析卷积各层实现内容与风格分离,低层次响应描述图像的风格,高层次响应描述图像的内容

A Neural Algorithm of Artistic Style在美术中,尤其是绘画,人类已经掌握了通过在图像的内容和风格之间构建复杂的相互作用来创造独特视觉体验的技能。到目前为止,这个过程的算法基础还是未知的,也不存在具有类似能力的人工系统。然而,在视觉感知的其他关键领域,如物体和人脸识别,最近一类被称为深度神经网络的生物启发视觉模型展示了接近人类的表现。在这里,本文介绍一个基于深度神经

#深度学习#计算机视觉
基于YOLOX的输电线路异物检测算法研究及软件设计_有系统有文献,整体认知蛮好的

我国自改革开放以来,大力发展工业和经济,对电能同样有着巨大的需求,所需求的电能不仅需要保证其数量,还要保障其质量,因此对整个电力系统安全稳定的运行也提出了更高的要求,电力系统发生故障要实时检测并及时排除,避免造成严重的安全事故和经济损失.我国输电线路巡检基本以人工巡检方式为主,但传统的人工巡检方式效率低,限制多,还往往会消耗大量的人力物力,后来引入直升机沿线巡检的方法,但该方法飞行作业十分危险且培

文章图片
#算法
【读点论文】基于二维伽马函数的光照不均匀图像自适应校正算法

摘 要:提出了一种基于二维伽马函数的光照不均匀图像自适应校正算法.利用多尺度高斯函数提取出场景的光照分量,然后.通过与经典算法对比表明,本文算法可以更好地降低光照不均匀对图像的影响,提高图像的质量.

文章图片
#算法#计算机视觉#人工智能
【读点论文】Masked Autoencoders Are Scalable Vision Learners 完型填空应用到视觉处理上

Masked Autoencoders Are Scalable Vision Learners本文表明,掩蔽自动编码器(MAE)是计算机视觉的可扩展自监督学习器。本文的MAE方法很简单:通过屏蔽输入图像的随机碎片,并重建丢失的像素。它基于两个核心设计。首先,开发了一个非对称的编码器-解码器架构,其中一个编码器只对可见的补丁子集进行操作(没有掩码标记),另一个轻量级解码器从潜在表示和掩码标记中重建

#计算机视觉#深度学习#机器学习
【mmPretrain】,mmcls的扩展版还可以多模态自监督学习,对模型的理解更深,自定义自由度也很大

可以通过继承一些基本配置文件轻松构建自己的训练配置文件。MMPretrain 是一个全新升级的预训练开源算法框架,旨在提供各种强大的预训练主干网络, 并支持了不同的预训练策略。希望基于 MMPretrain 框架开发自己的预训练任务,需要添加新的功能,比如新的模型或是数据集,或者使用我们提供的各种工具,那就。目前,预训练阶段对于视觉识别至关重要,凭借丰富而强大的预训练模型,我们能够改进各种下游视觉

文章图片
#学习#深度学习#python
【读点论文】 Fine-grained Recognition with Learnable Semantic Data Augmentation 在特征空间中对样本增强,构建元学习框架,依任务选增强

核心思想是在特征空间中对训练样本进行增强,而非在图像空间中进行传统的数据增强操作。通过这种方式,可以避免图像级数据增强可能带来的判别区域损失问题。具体来说,该方法通过协方差预测网络(CovNet)预测每个训练样本的语义方向,然后沿着这些方向在特征空间中对样本进行变换,从而生成多样化的增强样本。这种方法不仅能够保留图像中的判别性细节,还能提高模型对细粒度类别差异的识别能力。对于每个训练样本,其深度特

文章图片
【读点论文】YOLOv4: Optimal Speed and Accuracy of Object Detection,讲明目标检测结构,分析先进的涨点tricks,实现一种精度与速度的平衡

三张特征图就是整个Yolo输出的检测结果,检测框位置(4维)、检测置信度(1维)、类别(80维)都在其中,加起来正好是85维。特征图最后的维度85,代表的就是这些信息,而特征图其他维度N × N × 3,N × N代表了检测框的参考位置信息,3是3个不同尺度的先验框。

#目标检测#深度学习#计算机视觉 +1
【pytorch】数据增强与时俱进,未来的改进和功能将仅添加到 torchvision.transforms.v2 转换中

在 `torchvision.transforms.v2` 命名空间中发布了一套新的转换。与 v1(在 `torchvision.transforms` 中)相比,这些转换具有许多优势:它们不仅可以转换图像,**还可以**转换边界框、掩码或视频。这为图像分类以外的任务(如检测、分割、视频分类等)提供了支持。它们支持更多转换,例如 [`CutMix`]支持任意输入结构(dicts、lists、tup

#pytorch#python#深度学习
【读点论文】Character Region Awareness for Text Detection通过预训练合成数据实现字符级的弱监督训练,加入分水岭实现字符分割,对连接类的语种不具适配性

我们提出了一种名为 CRAFT 的新型文本检测器,即使没有给出字符级注释,它也可以检测单个字符。所提出的方法提供了字符区域得分和字符亲和力得分,它们一起以自下而上的方式完全覆盖各种文本形状。由于提供字符级注释的真实数据集很少见,我们提出了一种弱监督学习方法,该方法从临时模型生成伪 GT**。CRAFT 在大多数公共数据集上表现出最佳性能,并通过在无需微调的情况下展示这些性能来展示泛化能力。作为我们

文章图片
#人工智能#计算机视觉#深度学习
    共 154 条
  • 1
  • 2
  • 3
  • 16
  • 请选择