logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

致力于为客户提供高效、可靠的解决方案。业务范围涵盖智慧园区、智慧安防、智慧高校、智慧社区、智慧农业等领域。

EGISD-YOLO:用于红外舰船目标检测的边缘引导网络

在目标分割研究方面,文献以边缘信息为引导来锐化目标,边缘信息大多是从上下文语义中整合而来,以获取定位信息,辅助合成的高低层特征信息的融合,从而实现分割。在港口场景中,由于拍摄距离较近,停靠的舰船目标数量较多,且每个目标在整个图像中所占像素较多,这些不同的场景和目标大小给海上舰船目标的检测带来了一定的困难,如下图。展示了这三个类别的精度对比,结果表明,大多数方法在处理这类目标时精度明显较低,这意味着

#目标检测#目标跟踪#人工智能 +1
超越 YOLOv5,1.3M 超轻量,高效易用,目标检测领域这一个就够了!

这个目标检测神器简直香炸了!它不仅连续登录Github全球趋势榜,拥有的全球尖端算法论文也接连登录全球技术趋势榜PaperWithCode。这个神器就是刚刚全面升级的PaddleDetec...

#算法#人工智能#计算机视觉 +2
SARDet-100K:面向大规模合成孔径雷达(SAR)目标检测的开源基准与工具包

利用这个高质量数据集,我们开展了全面的实验,并揭示了SAR目标检测预训练中的一个关键挑战:在RGB数据集上预训练与在SAR数据集上微调之间,在数据域和模型结构方面均存在显著差异。为弥合这些差距,我们提出了一种新颖的带滤波器增强的多阶段(MSFA)预训练框架,该框架从数据输入、域转换和模型迁移的角度解决了这些问题。因此,它增强了跨域知识的对齐和可迁移性。SAR目标检测的一个主要障碍是,将在自然RGB

#目标检测#目标跟踪#人工智能 +2
大模型赛道白热化!解锁6大前沿热点,顶会论文手到擒来

实验表明,REWARDAGENT在现有的奖励模型基准测试和真实世界的下游任务中均显著优于传统的奖励模型,并且能够有效提升LLMs在各种自然语言处理基准测试中的性能。实验表明,GPT-FL 在模型测试精度、通信效率和客户端采样效率方面均优于现有的联邦学习方法,并且无论目标数据是否在预训练生成模型的领域内,都能显著提升性能。包括风险类型,分析在微调过程中可能出现的风险,例如模型生成有害内容、隐私泄露、

#人工智能
2025深圳无人机展亮点爆棚!芒果智能科技脱颖而出

在某城市试点,单架无人机日均巡查50平方公里,问题发现效率提升 8倍,AI生成工单使处置周期从7天缩至48小时。2025年深圳国际无人机展现场,人头攒动,中外友人纷至沓来,展馆内热闹非凡。该引擎基于轻量化深度学习,支持150+类目标实时识别,端侧运行技术让弱网环境也能毫秒级响应,引得国内外专业人士频频点头称赞。某工地应用后,隐患发现率提升60%,工程管理效率提高30%。试点路段事故处理时间缩短25

#无人机#科技
今年Agent闭眼都能发论文?高分创新思路都在这!

对比不同协议在安全性、扩展性等维度的性能,通过案例分析展示协议应用差异,展望协议向可进化、隐私保护、群体交互等方向发展的趋势,为相关设计与集成提供参考。模型在机器人技术、游戏智能和医疗保健三大领域开展实验,借助多种数据源实现多模态和多任务学习,展现出良好的通用性与适应性,为开发通用型多模态智能体提供了可行路径。围绕合成群体展开综述,从个体活性代理的运动性、结构与功能化入手,解析群体生成的交互机制,

小米开源首个跨域具身基座模型MiMo-Embodied,29个榜单SOTA

特别值得注意的是,MiMo-Embodied 在 VABench-Point、Part-Afford 和 RoboAfford-Eval 上大幅领先其他具身智能模型,展现出在精细可供性推理方面的强大能力。在导航任务中,MiMo-Embodied 在四个家庭导航场景中表现优异:定位卧室中的床、在餐厅找到吸尘器、在书房识别植物、在浴室定位马桶。大语言模型(LLM)与多模态大语言模型(MLLM)的浪潮正

心态卷崩了?莫慌,来看看目标检测领域这198个前沿创新点!简单好学易上手!

论文提出 LLM 引导的渐进式特征对齐网络 LPANet,通过 ChatGPT 生成目标类别细粒度文本描述并经 MPNet 提取语义特征,依次借助语义对齐模块、显式空间对齐模块、隐式空间对齐模块,逐步实现多模态特征的语义与空间对齐,提升多模态无人机目标检测性能。论文提出 TSP-SAM 框架,基于 SAM 设计时空提示学习方案,通过运动驱动自提示学习捕捉视频中伪装目标的细微运动线索以实现精准定位,

#目标检测#目标跟踪#人工智能 +2
2025多模态好发论文的方向!

本文提供了一个关于多模态推理方法的系统性综述,将这些方法分为两个层次:以语言为中心的多模态推理和协作式多模态推理,分析了这些方法的技术演变,讨论了其固有挑战,并介绍了评估多模态推理性能的关键基准任务和评估指标。该论文提出了一种名为MTV的方法,旨在解决多模态领域中大型多模态模型(LMMs)在多示例上下文学习中的限制问题,通过在LMM的注意力头中压缩多示例上下文为紧凑的隐式表示,从而克服了这一限制。

RoboTwin系列新作:开源大规模域随机化双臂操作数据合成器与评测基准集

因此我们提出了 RoboTwin 2.0,提供基于多模态大模型与仿真在环的自动化专家代码合成方案,开源了含 731 个,147 类带丰富标注物体的 RoboTwin 物体数据集(RoboTwin-OD),并基于两者构建了支持 5 款本体与 50 个任务的大规模域随机化仿真双臂操作数据合成器与评测基准集。我们开源了 50 个任务的 RoboTwin 2.0 代码,预采集 100,000 + 条多本体

    共 279 条
  • 1
  • 2
  • 3
  • 28
  • 请选择