
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
FastSAM是一种零样本图像分割模型,比Meta的SAM模型快50倍。它基于YOLOv8-seg架构,结合YOLACT方法,通过两阶段推理实现高效分割:先全实例分割生成掩码,再通过提示引导选择目标区域。FastSAM采用轻量级CNN替代SAM的ViT架构,仅用2%的SA-1B数据集训练就达到相近效果。支持点、框、文本三种提示方式,其中文本提示使用CLIP模型计算相似度。该模型在保持高质量分割的同

少样本学习是机器学习的一个子领域。它涉及到在只有少数训练样本和监督数据的情况下对新数据进行分类。只需少量的训练样本,我们创建的模型就可以相当好地执行。考虑以下场景:在医疗领域,对于一些不常见的疾病,可能没有足够的x光图像用于训练。对于这样的场景,构建一个小样本学习分类器是完美的解决方案。

目标跟踪作为机器学习的一个重要分支,加之其在日常生活、军事行动中的广泛应用,受到极大的关注。在AI潮流中,大家对于深度学习,目标跟踪肯定都会有过接触了解:在GPU上通过大量的数据集训练出自己想使用的垂直场景后再在实际场景中使用。但麻烦的是,大数人拥有的是CPU,有没有办法能在自己的电脑上用CPU就能实现自己的目标跟踪能力。OpenCV的跟踪API给出了答案:我行。

本文介绍港中文与美团联合研发的多模态推理通用模型OneThinker,该模型突破图像与视频界限,可同时处理问答、定位、跟踪、分割等十余项视觉任务。研究团队构建60万样本数据集,利用34万条思维链数据训练模型,在31个基准测试中表现优异,如图像问答准确率70.6%、物体跟踪指标84.4。该工作实现了视觉理解的大一统,为未来智能系统(如家用机器人)提供全能解决方案。所有代码、模型和数据均已开源。

本文提出了一种用于检测极小型无人机的端到端框架。作者生成运动差异图以捕捉小物体的运动特征,并通过双模态自适应融合网络将其与RGB图像融合。为了评估YOLOMG的有效性,作者引入了ARD100数据集,该数据集具有复杂背景、突然的相机运动、低光照条件和微型无人机等特点。在ARD100和NPS-Drones数据集上的实验表明,YOLOMG能够有效地检测小型无人机,并超越了现有方法。

本文介绍了RSNA颅内动脉瘤检测竞赛的五大顶尖解决方案。竞赛任务是通过3D医学影像检测颅内动脉瘤并精确定位其位置。优胜方案采用创新策略:第一名方案先分割血管再检测动脉瘤,模仿放射科医生诊断流程;第二名使用多任务3D模型;第三名将3D数据投影为2D图像;第四名采用回归模型定位血管;第五名将3D问题分解为2D任务。这些方案通过精妙的算法设计,展现了AI在医学影像分析中的潜力,有望提升动脉瘤早期诊断率,

本文来源公众号,仅用于学术分享,侵权删,干货满满。

本文主要介绍如何使用YOLOv8+BYTETrack+OpenCV实现车辆速度的计算(详细步骤 + 代码)。您是否想过如何实现?在本教程中,我们将探索从对象检测到跟踪再到速度估计的整个过程。本文的实现主要包含以下三个主要步骤,分别是,下面我们将一一介绍其实现步骤。要对视频执行,我们需要迭代视频的帧,然后对每个帧运行我们的检测模型。推理则提供对预先训练的目标检测模型的访问,我们使用yolov8x-6

《扩散负面感知微调(DiffusionNFT):在线强化学习新范式》 摘要:本文提出DiffusionNFT这一创新强化学习范式,通过流匹配目标直接在前向扩散过程中优化策略。该技术突破性地解决了传统方法依赖反向采样和分类器引导的局限性。实验表明,DiffusionNFT在多奖励联合训练中显著提升SD3.5-Medium性能,在无CFG环境下域内外奖励均超越基线。与FlowGRPO相比,其效率提升达

X-AnyLabeling 3.0发布:一站式AI标注平台的全面升级 本文介绍了X-AnyLabeling 3.0版本的核心更新,这是一款开源免费的多模态AI标注工具。新版本推出PyPI一键安装包、远程推理服务框架X-AnyLabeling-Server,深度集成Ultralytics实现从标注到训练的全流程闭环。平台新增Chatbot对话机器人、VQA视觉问答面板等智能功能,集成100+预训练模








