logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

TY-RIST:用于实时红外小目标检测的战术YOLO技巧

尽管红外小目标检测(IRSTD)对于国防和监视至关重要,但由于以下原因,它仍然是一项具有挑战性的任务:(1) 目标特征极少导致目标丢失,(2) 复杂环境中的虚警,(3) 低显著性导致的漏检,以及 (4) 高计算成本。为了解决这些问题,我们提出了 TY-RIST,一种优化的 YOLOv12n 架构,具有以下特点:(1) 具有细粒度感受野的步长感知骨干网络,(2) 高分辨率检测头,(3) 级联坐标注意

文章图片
#目标检测#人工智能
小目标检测:微小目标的精准感知调研

小目标"的界定具有显著场景依赖性。在标准COCO数据集中,目标面积<32×32像素的物体被定义为"小目标”,这类目标在数据集中占比约41%。遥感影像:在DOTA-v2.0数据集中,<16×16像素的目标被视为极小目标,这类目标在航拍图像中占比较高,且类别分布不均工业质检:微米级缺陷在高分辨率图像中可能仅占几个像素,如PCB板上的焊点短路、纺织品中的细小断丝无人机巡检:在VisDrone2019数据

文章图片
#目标检测#人工智能#计算机视觉
SMA-YOLO:一种基于无参注意力机制和多尺度特征融合的改进YOLOv8算法,用于无人机图像中的小目标检测

https://www.mdpi.com/2072-4292/17/14/2421针对复杂场景和密集分布的小目标,在无人机图像的小目标检测场景中,这经常导致严重的误检和漏检。因此,我们提出了一种无人机图像小目标检测算法,命名为SMA-YOLO。首先,在骨干网络中集成了一个无参的简单切片卷积模块,对特征图进行切片和增强,以有效保留小目标的特征。随后,为了增强上下层之间的信息交换,我们设计了一个特殊的

文章图片
#算法#无人机
PaddleOCR-VL-1.5:迈向用于鲁棒真实场景文档解析的多任务9亿参数视觉语言模型

我们推出了PaddleOCR-VL-1.5,该升级模型在OmniDocBench v1.5上达到了94.5%的最新最高水平(SOTA)准确率。为了严格评估模型对真实世界物理畸变(包括扫描、倾斜、弯曲、屏幕翻拍和光照变化)的鲁棒性,我们提出了Real5-OmniDocBench基准测试。实验结果表明,该增强模型在新构建的基准测试上获得了SOTA性能。此外,我们通过融入印章识别和文本定位任务扩展了模型

#语言模型#人工智能#自然语言处理
使用RingAttention处理百万长度视频和语言的世界模型

目前对世界的建模方法大多局限于短语言序列或短图像和片段序列 [BMR+ 20, TLI+ 23, TMS+ 23, Ope23, TAB+ 23]。这导致模型缺乏对难以用文本或短片段表示的世界部分的理解,并且无法处理复杂的长篇语言和视觉任务。视频序列中的时间结构提供了有用的信息,这些信息在语言中缺失或在静态图像和短片段中不那么明显。长语言序列编码了短序列无法编码的信息,这对于各种应用(如长文档检索

文章图片
#人工智能#深度学习#计算机视觉
【Block总结】PSA,金字塔挤压注意力,解决传统注意力机制在捕获多尺度特征时的局限性

EPSANet通过引入金字塔挤压注意力模块,成功地提升了卷积神经网络在多尺度特征提取方面的能力。其灵活的设计使得EPSANet能够广泛应用于各种计算机视觉任务,展现出良好的泛化性能和高效性。该研究为未来的深度学习模型设计提供了新的思路和方法。

文章图片
#人工智能#计算机视觉#transformer +1
ViT-5:面向2020年代中期的视觉Transformer

本工作通过对过去五年架构进步的利用,系统地研究了如何现代化视觉Transformer(ViT)骨干网络。在保留经典的注意力-前馈神经网络(Attention-FFN)结构的同时,我们进行了组件级的优化,涉及归一化、激活函数、位置编码、门控机制和可学习令牌。这些更新构成了新一代视觉Transformer,我们称之为ViT-5。大量实验表明,ViT-5在理解和生成基准测试中 consistently

文章图片
#transformer#深度学习#人工智能
【全面解析】 Loss体系

训练早期,one2many 的密集梯度帮助主干快速学习特征;训练晚期,模型已经学好,这时让 one2one 成为主导——它与推理期分配一致,能 close"training-serving gap"。

#python#人工智能
基于深度正交增强生成模型的路面裂缝分割

随着高分辨率路面图像为路面状况提供动态数字孪生,精准的裂缝分割成为构建智能养护系统的关键步骤。然而,大多数现有分割模型假设均匀采样条件并依赖固定参数,限制了其在多样化真实环境下的泛化能力。为应对这一挑战,我们提出一种深度正交增强生成模型(Deep Orthogonal-Enhanced Generative Model, DORGM)用于鲁棒的路面裂缝分割。所提出的框架引入两项关键创新:(1)正交

文章图片
#机器学习#人工智能
豆包大模型全网最低价?仔细算算账,还是文心更便宜

在大模型厂商眼里,我们可以把一次提问简单看成一个向大模型提出的请求(Request),一个请求会包含输入、输出两部分,也就是用户先向模型提问,模型在理解问题、分析结果之后给出答案。火山引擎最新发布的大模型Doubao-pro-32k,表面上显示模型的推理输入价格仅为0.0008元/千Tokens,但是并没有在发布会上展示模型的输出价格0.002元/千tokens,在通过加权平均输入、输出价格后(按

文章图片
#人工智能#神经网络
    共 525 条
  • 1
  • 2
  • 3
  • 53
  • 请选择