
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
尽管红外小目标检测(IRSTD)对于国防和监视至关重要,但由于以下原因,它仍然是一项具有挑战性的任务:(1) 目标特征极少导致目标丢失,(2) 复杂环境中的虚警,(3) 低显著性导致的漏检,以及 (4) 高计算成本。为了解决这些问题,我们提出了 TY-RIST,一种优化的 YOLOv12n 架构,具有以下特点:(1) 具有细粒度感受野的步长感知骨干网络,(2) 高分辨率检测头,(3) 级联坐标注意

小目标"的界定具有显著场景依赖性。在标准COCO数据集中,目标面积<32×32像素的物体被定义为"小目标”,这类目标在数据集中占比约41%。遥感影像:在DOTA-v2.0数据集中,<16×16像素的目标被视为极小目标,这类目标在航拍图像中占比较高,且类别分布不均工业质检:微米级缺陷在高分辨率图像中可能仅占几个像素,如PCB板上的焊点短路、纺织品中的细小断丝无人机巡检:在VisDrone2019数据

https://www.mdpi.com/2072-4292/17/14/2421针对复杂场景和密集分布的小目标,在无人机图像的小目标检测场景中,这经常导致严重的误检和漏检。因此,我们提出了一种无人机图像小目标检测算法,命名为SMA-YOLO。首先,在骨干网络中集成了一个无参的简单切片卷积模块,对特征图进行切片和增强,以有效保留小目标的特征。随后,为了增强上下层之间的信息交换,我们设计了一个特殊的

我们推出了PaddleOCR-VL-1.5,该升级模型在OmniDocBench v1.5上达到了94.5%的最新最高水平(SOTA)准确率。为了严格评估模型对真实世界物理畸变(包括扫描、倾斜、弯曲、屏幕翻拍和光照变化)的鲁棒性,我们提出了Real5-OmniDocBench基准测试。实验结果表明,该增强模型在新构建的基准测试上获得了SOTA性能。此外,我们通过融入印章识别和文本定位任务扩展了模型
目前对世界的建模方法大多局限于短语言序列或短图像和片段序列 [BMR+ 20, TLI+ 23, TMS+ 23, Ope23, TAB+ 23]。这导致模型缺乏对难以用文本或短片段表示的世界部分的理解,并且无法处理复杂的长篇语言和视觉任务。视频序列中的时间结构提供了有用的信息,这些信息在语言中缺失或在静态图像和短片段中不那么明显。长语言序列编码了短序列无法编码的信息,这对于各种应用(如长文档检索

EPSANet通过引入金字塔挤压注意力模块,成功地提升了卷积神经网络在多尺度特征提取方面的能力。其灵活的设计使得EPSANet能够广泛应用于各种计算机视觉任务,展现出良好的泛化性能和高效性。该研究为未来的深度学习模型设计提供了新的思路和方法。

本工作通过对过去五年架构进步的利用,系统地研究了如何现代化视觉Transformer(ViT)骨干网络。在保留经典的注意力-前馈神经网络(Attention-FFN)结构的同时,我们进行了组件级的优化,涉及归一化、激活函数、位置编码、门控机制和可学习令牌。这些更新构成了新一代视觉Transformer,我们称之为ViT-5。大量实验表明,ViT-5在理解和生成基准测试中 consistently

训练早期,one2many 的密集梯度帮助主干快速学习特征;训练晚期,模型已经学好,这时让 one2one 成为主导——它与推理期分配一致,能 close"training-serving gap"。
随着高分辨率路面图像为路面状况提供动态数字孪生,精准的裂缝分割成为构建智能养护系统的关键步骤。然而,大多数现有分割模型假设均匀采样条件并依赖固定参数,限制了其在多样化真实环境下的泛化能力。为应对这一挑战,我们提出一种深度正交增强生成模型(Deep Orthogonal-Enhanced Generative Model, DORGM)用于鲁棒的路面裂缝分割。所提出的框架引入两项关键创新:(1)正交

在大模型厂商眼里,我们可以把一次提问简单看成一个向大模型提出的请求(Request),一个请求会包含输入、输出两部分,也就是用户先向模型提问,模型在理解问题、分析结果之后给出答案。火山引擎最新发布的大模型Doubao-pro-32k,表面上显示模型的推理输入价格仅为0.0008元/千Tokens,但是并没有在发布会上展示模型的输出价格0.002元/千tokens,在通过加权平均输入、输出价格后(按








