logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

佛罗里达大学提出Med3DVLM:适用于三维医学图像分析的高效视觉-语言模型

定性分析中,其能识别关键异常,但存在过度泛化和幻觉现象见下图3。:基于MLP - Mixer设计双流式投影器,融合低层次空间细节和高层次抽象语义特征,通过两个平行的 MLP - Mixer 模块分别处理不同层的图像特征,然后与文本嵌入融合,比简单线性投影更能捕捉丰富的跨模态交互,提高LLM解码准确性。:采用 DCFormer,将3D卷积分解为三个平行的1D 卷积,降低计算复杂度,有效捕捉3D图像的

#人工智能#神经网络#机器学习 +4
“看一眼就足够!”KAIST提出零样本单目深度估计模型:高分辨率深度图高效生成,告别边界断层!

基于Patch的高分辨率深度估计方法虽能缓解内存问题,但在重新组装估计的深度Patch时会引入深度不连续问题,即边界伪影,且为解决该问题采用的测试时集成平均方法会降低推理速度,在实际应用中存在局限性。:零样本深度估计模型在大规模数据集上训练,泛化性强,但训练数据分辨率低,处理高分辨率图像时,直接处理会导致内存消耗大且精度下降,下采样则会丢失边缘细节,影响深度估计的准确性,使整体结构出现低频伪影。在

#人工智能#计算机视觉#神经网络 +4
AAAI2025 | FBRT-YOLO:目标检测新方法,轻量高效,已开源!

在 Visdrone、UAVDT 和 AI-TOD 数据集上的实验结果表明,FBRT-YOLO 在不同模型规模下均优于现有实时检测器,实现了精度与效率的良好平衡,为航拍图像实时检测提供了更有效的解决方案。轻量化设计:精简冗余计算,相比YOLOv8系列,参数量减少最高74%,推理速度提升显著。AI-TOD 数据集实验结果:该数据集包含大量小目标,FBRT-YOLO相比基线模型,参数数量减少74%,G

#目标检测#人工智能#图像处理 +3
帝国理工携手KAIST:BHaRNet用跨注意力优化骨骼动作识别精度

提出将身体和手部作为两个互补数据模态的跨模态架构,身体流提取全局身体动态(如走路、跳跃),手部流专注于手指关节的细粒度运动(如捏、握),以跨模态方式整合详细的手部姿态信息和全身姿态,使模型能同时捕捉全局身体动态和精细的手部关节运动。2.特征模糊:统一图表示(如SkeleT)整合全身、手部和足部关键点时,但由于身体和手部动作特征差异以及空间池化时细微特征的丢失,导致手部细节模糊,限制精确识别手部动作

文章图片
#计算机视觉#深度学习#神经网络 +2
生成式人工智能应用发展报告(2024)(附下载)

在产业方面,我国人工智能产业规模不断扩大,体系更加全面,相关企业超4500家,核心产业规模接近6000亿元。在融资方面,生成式人工智能备受青睐,OpenAI估值大幅增长,我国政府引导基金、民间资本和大型企业纷纷投入资金,推动行业发展。我们需要各方共同努力,突破技术瓶颈,规范行业发展,让这一技术更好地服务社会,创造美好的未来。多模态大模型的出现,拓展了生成式人工智能的应用场景。【生成式人工智能发展历

文章图片
#人工智能
CVPR2025 | 上海科技大学提出MITracker:多视图目标跟踪新框架+23万帧数据集,目标跟踪抗遮挡能力飙升!

经ViT处理后,通过特定计算得到聚焦于目标对象的特征,再利用基于CenterNet架构的边界框头输出跟踪结果,并将特征映射到2D特征图,为后续多视图集成做准备。和其他多视图数据集相比,它提供了更丰富的对象类别(27类,远超其他数据集的1 - 8类)和更多的视频(260 个),且采用实用的3 - 4视图相机设置,是唯一结合多视图跟踪、丰富对象类别、缺失标签注释和校准信息的数据集。跟踪的时候呢,当目标

#科技#目标跟踪#人工智能 +4
AAAI2025 | FBRT-YOLO:目标检测新方法,轻量高效,已开源!

在 Visdrone、UAVDT 和 AI-TOD 数据集上的实验结果表明,FBRT-YOLO 在不同模型规模下均优于现有实时检测器,实现了精度与效率的良好平衡,为航拍图像实时检测提供了更有效的解决方案。轻量化设计:精简冗余计算,相比YOLOv8系列,参数量减少最高74%,推理速度提升显著。AI-TOD 数据集实验结果:该数据集包含大量小目标,FBRT-YOLO相比基线模型,参数数量减少74%,G

#目标检测#人工智能#图像处理 +3
ICLR2025 | 港理工等提出Spatial-Mamba:结构感知状态融合新思路!

Spatial-Mamba-T的Top-1准确率达到83.5%,超过ConvNeXt-T 1.4%,超越Swin-T 2.2%、NAT-T 0.3%,比VMamba-T和 LocalVMamba-T分别高出1.0%和0.8%。Spatial-Mamba-S和Spatial-Mamba-B的Top-1准确率分别为84.6%和85.3%,优于NAT-S、NAT-B、VMamba-S和VMamba-B。

文章图片
#人工智能#计算机视觉#神经网络 +3
分析近三年ICLR会议投稿记录,我发现......

从三年标题词云结果可以看出,三年来,reinforcement_learning始终保持器热门的位置,24和25年large_language_models、diffusion_models出现次数开始领先reinforcement_learning,这也是这两年最火的两个方向。论文发表量前五机构Google、tsinghua_university、zhejiang_university、mass

文章图片
#人工智能#AIGC#计算机视觉 +2
篇1-多尺度注意力论文总结,看多尺度注意力如何提升模型性能?

头部将第2、3、4阶段的输出(P2、P3和P4)通过1x1 卷积和标准上采样操作匹配空间和通道大小后,采用加法融合,然后经过几个 MBConv 块和输出层进行预测和上采样。:由通道注意力和空间注意力模块组成。编码器基于MobileNet,去除全连接层,使用多尺度卷积核(1×1、3×3和5×5)替代原有的3×3卷积核,扩大卷积感受野,增强特征提取能力;CSPDarkNet 生成多尺度特征图,PAFP

文章图片
#人工智能#目标检测#机器学习 +4
    共 12 条
  • 1
  • 2
  • 请选择