logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

在YOLOv5/YOLOv8数据集上应用数据增强的方法与代码实现结果

数据增强是机器学习或深度学习中的一种技术,通过应用各种变换(如翻转、旋转、改变亮度/对比度等)从现有数据创建新数据。它通常用于计算机视觉任务,但也适用于自然语言处理和语音识别等领域。

文章图片
#计算机视觉#深度学习#图像处理 +1
视觉语言模型应用开发——Qwen 2.5 VL模型视频理解与定位能力深度解析及实践指南

Qwen 2.5 VL 模型在视频理解领域的突破,不仅体现在技术创新层面,更在于其将复杂的视频分析任务变得更加易用和高效。未来,随着模型性能的进一步提升和应用场景的不断拓展,Qwen 2.5 有望在智能监控、内容创作、教育培训等多个领域发挥重要作用,推动视频理解技术的实际应用和产业发展。

文章图片
#语言模型#音视频#人工智能 +1
面向复杂场景的人脸识别——AdaFace 模型的理论基础与从数据到部署的实践路径

人脸识别技术作为深度学习在计算机视觉领域的重要分支,近年来在算法性能与实际应用中均取得了显著突破,已广泛渗透到安全防护、金融服务、智能终端等多元领域。模型的性能表现与环境鲁棒性作为决定其部署价值的核心指标,始终是研究与工程实践的焦点。AdaFace 作为当前先进的人脸识别框架,创新性地引入自适应特征归一化(Adaptive Feature Normalization)机制,显著提升了模型对复杂场景

文章图片
#人工智能#人脸识别#计算机视觉
微调 AnomalyCLIP——基于对象无关提示学习与全局 - 局部优化的零样本异常检测框架性能验证

AnomalyCLIP 针对传统视觉语言模型在零样本异常检测(ZSAD)中的局限,通过三项关键创新突破挑战:采用对象无关的提示学习,以 “正常的对象”“损坏的对象” 等通用模板替代特定类别提示,摆脱对对象语义的依赖;引入对角突出注意力图(DPAM),通过值 - 值(V-V)注意力增强对细粒度异常的捕捉;利用全局 - 局部上下文优化,结合图像级分类损失与像素级分割损失,兼顾异常判断与定位。

文章图片
#人工智能#计算机视觉#深度学习
YOLOv8提升小目标检测策略——专为微小目标检测设计的 IoU 替代方案NWD原理解析、YOLO代码集成与验证

所提出的 NWD 度量方法可轻松嵌入到任何基于锚点的检测器的分配、非极大值抑制和损失函数中,以替代常用的 IoU 度量。在用于微小目标检测的新数据集(AI-TOD)上的评估表明,采用 NWD 度量方法后,性能比标准微调基线高出 6.7 个 AP 点,比最先进的竞争对手高出 6.0 个 AP 点。

文章图片
#目标检测#目标跟踪#计算机视觉
YOLOv8提升小目标检测策略——详细记录从 HCF-Net 的 DASI/PPA 到 SPD-Conv、MSCA 及 BoTNet加EMA优化原理到代码实现方法

本文围绕 YOLOv8 小目标检测性能提升展开,详细介绍了多种创新改进方案。包括 HCF-Net 中的维度感知选择性整合模块(DASI),其通过信道分区选择机制,自适应融合高维、低维和当前层特征,依据目标特征灵活侧重细粒度或上下文信息;HCF-Net 的小目标并行化注意力设计(PPA),采用多分支特征提取(局部分支、全局分支、串行卷积分支)和分层融合策略,增强小目标特征表示;SPD-Conv 空间

文章图片
#目标检测
视觉语言模型应用开发——Qwen 2.5 VL模型视频理解与定位能力深度解析及实践指南

Qwen 2.5 VL 模型在视频理解领域的突破,不仅体现在技术创新层面,更在于其将复杂的视频分析任务变得更加易用和高效。未来,随着模型性能的进一步提升和应用场景的不断拓展,Qwen 2.5 有望在智能监控、内容创作、教育培训等多个领域发挥重要作用,推动视频理解技术的实际应用和产业发展。

文章图片
#语言模型#音视频#人工智能 +1
YOLOv8提升小目标检测策略 —— EFC(增强层间特征关联)与 FCM(特征互补映射)的原理与算法代码实现

EFC(增强层间特征关联):通过层间相关性增强与特征重构,减少冗余信息,突出小目标特征,提升复杂场景下的检测能力。FCM(特征互补映射):融合浅层空间位置信息与深层语义信息,缓解小目标信息丢失,优化定位精度,尤其适用于航拍等场景。文档包含原理解析、核心代码、配置方法和实验结果,便于快速理解和应用两种模块。

文章图片
#目标检测#计算机视觉
YOLOv8提升小目标检测策略——专为微小目标检测设计的 IoU 替代方案NWD原理解析、YOLO代码集成与验证

所提出的 NWD 度量方法可轻松嵌入到任何基于锚点的检测器的分配、非极大值抑制和损失函数中,以替代常用的 IoU 度量。在用于微小目标检测的新数据集(AI-TOD)上的评估表明,采用 NWD 度量方法后,性能比标准微调基线高出 6.7 个 AP 点,比最先进的竞争对手高出 6.0 个 AP 点。

文章图片
#目标检测#目标跟踪#计算机视觉
多模态大模型——Qwen2.5-Omni端到端实时多模态智能的技术架构与实现机制

Qwen2.5-Omni是阿里巴巴开发的多模态AI模型,支持文本、图像、音频和视频的实时处理与生成。其核心是Thinker-Talker框架:Thinker负责推理和文本生成,Talker专攻语音合成。创新点包括TMRoPE机制实现跨模态时间同步,以及流式优化设计降低延迟。模型训练分三阶段:编码器对齐、跨模态整合和长序列支持。该模型采用ChatML对话格式,适用于智能助手等实时交互场景,在架构设计

文章图片
#transformer#计算机视觉#人工智能
    共 15 条
  • 1
  • 2
  • 请选择