登录社区云,与社区用户共同成长
邀请您加入社区
计算机-人工智能-类别信息量约束下长尾目标检测优化
本文汇集 TjMakeBot 团队三年实战经验,深度解析无人机航拍标注全流程。针对俯视视角、尺度差异及成像质量等痛点,提供从采集航线规划到旋转框(OBB)、时序标注等高阶策略的避坑指南。结合智慧农业与城市管理案例,详解如何利用大图切片、地理投影及AI辅助工具提升效率,并分享数据增强与类别平衡优化技巧,助力构建高精度的航拍 AI 模型。
资源层:单例管理ONNX Runtime核心对象,线程池控制并发,避免资源泄漏;推理层:封装YOLO核心逻辑,与业务解耦,方便模型版本替换;接口层:提供同步/异步接口,满足不同并发场景;扩展层:支持批量检测、缓存、集群部署,适配工业级生产需求。这套架构既保证了模型推理的稳定性,又具备良好的扩展性,可直接落地到实际项目中。
本文提出了一种基于红色激光线扫描的视觉检测系统,用于工业自动化中的缝隙宽度测量。系统采用630nm激光器作为光源,通过波长相关增强算法和自适应图像处理技术实现亚像素级精度测量。实验结果表明,该系统在0.5-5mm范围内测量误差小于2%,处理速度达60FPS,适用于PCB检测、材料分析等多种工业场景。相比传统方法,本方案具有非接触、高精度和强鲁棒性等优势。未来可结合深度学习和边缘计算进一步提升性能。
摘要: 2015-2025年,自主导航技术实现了从依赖高精地图的规则驱动(2015-2018)到轻地图感知(2019-2022),再到端到端世界模型(2023-2025)的跨越。2025年的系统具备语义理解(VLA架构)、实时物理预测和内核级安全监控(eBPF),并能通过云端协同实现群体智能。核心突破包括无图导航、神经网络决策和4D动态避障,使机器从“循迹工具”进化为具备人类常识的自主智能体,实现
摘要: 伺服电机(2015–2025)从工业组件升级为智能执行终端,经历三阶段演进: 数字化阶段(2015–2018):总线控制(如EtherCAT)实现多轴同步,编码器分辨率提升至23位; 高密度阶段(2019–2022):无框架电机和一体化设计使体积缩小30%,适配协作机器人; AI驱动阶段(2023–2025):GaN/SiC器件降低损耗50%,AI算法实现自适应控制,专为人形机器人优化。
摘要: 目标检测在2015-2025年间经历了革命性演进,从两阶段检测器(Faster R-CNN)到无锚框方法(DETR),再到多模态大模型时代(SAM)。技术突破包括:精度(COCO mAP从30%提升至65%)、检测范围(从预定义类别到开放世界识别)、输出形式(2D框→3D占用网络)。2025年的VLA架构实现了感知-决策一体化,eBPF技术优化实时性能,检测器具备意图理解能力。目标检测已从
若有实际项目需求,可准备自定义数据集(如工业缺陷检测、行人检测),要求:包含至少1000张图片,涵盖「密集目标」「遮挡目标」「偏移目标」三种场景;标注格式为YOLO格式(txt文件,与图片同名,存放于labels文件夹);划分训练集(train)、验证集(val),比例为8:2,修改data/custom.yaml中的数据集路径、类别数、类别名称。传统NMS:易保留偏移明显的框,抑制准确但IoU较
该数据集聚焦临床中最常见的牙体修复与治疗后影像特征,通过标准化的标注流程,将牙体充填物、冠桥修复体、种植牙根和根管充填物等关键视觉特征进行精准定位与分类,为后续开发能够自动识别牙体修复状态的 AI 系统提供了可靠的数据支撑。所有图像均为 JPG 格式,标注文件采用 YOLO 标准的 TXT 格式,每个标注文件包含对应图像中所有目标的类别标签与边界框坐标,可直接适配主流目标检测算法的训练框架。在使用
做过汽车零部件/3C装配产线运维的同学都深有体会:产线安全和物料管控靠“人盯人”完全不现实——一是人员违规难管控:机器人作业区、高速运转的传送带区域是高危区,人工监控容易走神,人员误入轻则停机,重则引发安全事故;二是物料错放难发现:装配工位的螺丝盒、配件盒放错位置,人工巡检要逐工位核对,漏检会导致产品装配错误,返工成本翻倍;三是告警不及时:传统监控只能“事后回看”,违规发生时无法实时干预,等发现问
基于Spring Boot构建的YOLO AI检测微服务,核心是通过分层解耦、无状态化、异步化、分布式部署解决生产级可扩展问题。该架构既保留了Java生态的工程化优势,又适配了YOLO模型的推理需求,能支撑从单机到分布式、从低并发到高并发的全场景落地。边缘推理:将轻量版YOLO模型部署到边缘节点(如摄像头、工控机),降低中心服务压力;模型按需加载:基于请求特征动态加载不同版本的YOLO模型(如小尺
Java+TensorRT的YOLO模型GPU加速方案,核心是通过JNI桥接实现Java与TensorRT的高效交互,结合TensorRT的底层优化能力,最大化GPU算力。该方案既保留了Java后端的工程化优势(如易维护、生态完善),又解决了AI模型推理的性能瓶颈,可落地于实时视频分析、智能监控、工业质检等场景。基于TensorRT Dynamic Shape实现多尺寸输入的自适应优化;结合Jav
通过YOLO+Java,我们不仅实现了表情包猫狗检测,更掌握了AI目标检测的核心流程——预处理、推理、后处理。纯Java实现,无需Python/GPU,新手易上手;针对表情包做了专属优化,检测精准、速度快;代码可直接复用,扩展成本低。YOLO+Java实现表情包猫狗检测的核心是预处理适配小尺寸+类别过滤+NMS去重,纯Java无需GPU也能精准检测;针对表情包的透明背景、小目标特点做专属优化,是提
智能监控:检测到陌生人/异常目标时语音提醒;辅助视障设备:实时播报周边环境目标;桌面小工具:摄像头实时识别并播报画面中的目标。Java+YOLO+语音播报的核心是隔帧推理保证实时性、缓存去重避免重复播报、异步合成不阻塞流程;FreeTTS实现离线语音合成,适合无网络场景,百度AI语音可替代实现中文播报;整套方案无Python/GPU依赖,新手可直接复用代码,扩展成本低。
本文提出视差引导的多光谱曼巴(DMM)框架用于多光谱目标检测。针对模态间差异和RGB模态内光照变化等挑战,DMM包含三个关键模块:视差引导的跨模态融合曼巴(DCFM)利用Mamba选择性扫描机制高效融合RGB与红外特征;多尺度目标感知注意力(MTA)通过多尺度卷积抑制RGB模态的噪声干扰;目标先验感知(TPA)辅助任务引入额外监督优化MTA模块。实验表明,DMM在DroneVehicle和VEDA
本文是一篇农业AI病虫害检测数据标注实战指南。文章指出全球每年因病虫害造成的农作物损失高达20%-40%,AI检测系统可降低30%-50%农药使用量。文章详细介绍了农业图像标注的特殊挑战(复杂光照、背景干扰、病害多样性),并提出四大标注策略:建立科学分类体系、多尺度标注方法、处理模糊边界等难点、三级质量审核机制。通过水稻、苹果、小麦三个实战案例,展示了AI预标注结合人工精修的高效流程,可提升65%
本文展望AI标注工具未来10年的发展趋势。技术层面,多模态AI、零样本学习、主动学习将彻底改变标注方式,效率提升10-20倍,成本降低90%以上。交互层面,语音、手势、AR等自然交互方式将让标注像对话一样简单。产业层面,标注工具将向平台化演进,打通数据-训练-部署全链路,并深耕自动驾驶、医疗影像、工业质检等垂直行业。用户将获得95%+的效率提升、95%+的成本降低和99%+的标注准确率。TjMak
在工业生产、建筑施工等高危场景中,安全帽佩戴检测是保障作业人员生命安全的关键环节,而高质量的标注数据集是 AI 视觉检测模型落地的核心基础。传统数据集常存在样本规模不足、场景覆盖单一、版本适配性差等问题,导致模型训练效果不佳、泛化能力弱。为此,本文介绍一套经过工业级场景验证的安全帽佩戴检测数据集,该数据集涵盖 1.2 万张高质量样本,深度适配 5 个主流 YOLO 系列算法,可直接支撑目标检测模型
YOLOv1:开创实时目标检测新时代 YOLOv1提出了一种革命性的目标检测方法,将传统多步骤流程统一为单一回归问题。该模型通过端到端训练,直接从图像像素预测边界框和类别概率,实现了45-155 FPS的实时处理速度。其核心创新包括: 统一架构:24层卷积网络将448x448输入转化为7x7x30预测张量,整合了坐标回归和分类任务 损失函数设计:加权平方误差平衡了定位精度(λcoord=5)与背景
我的配置:RTX 4090CUDA11.3(我是平台租显卡进行实验,这里使用的是autodl算力平台)
PRCV 2023由中国计算机学会(CCF)、中国自动化学会(CAA)、中国图象图形学学会(CSIG)和中国人工智能学会(CAAI)联合主办,厦门大学承办,是国内顶级的模式识别和计算机视觉领域学术盛会,CCF推荐会议(C类)。通过此次会议,进一步加强本领域的同行与东南沿海地区的学者和企业进行学术交流和技术碰撞,从而促进模式识别与计算机视觉领域的协同合作与融合创新。在会上展出思腾AI算力服务器,诚挚
思腾合力是AI与HPC基础架构解决方案商,拥有自主品牌GPU服务器及通用X86服务器,适用于深度学习训练及推理等场景,覆盖服务器、静音工作站等多种产品形态,能够满足客户全场景需求。思腾合力的智能生产基地布局与“东数西算”的多处国家算力枢纽不谋而合,并充分应用人工智能等新兴技术,形成融合基础设施,整合资源,服务政企用户,助力缩小中西部数字化发展进程差异,助推西部区域发展加速度。要计算,首先得有计算机
新一轮科技革命和产业变革不断推进,世界主要经济体纷纷制定数字化战略,如美国发布《联邦大数据研发战略计划》、《国家人工智能研究和发展战略计划》等,中国发布《"十四五"数字经济发展规划》,日本发布《增长战略实施计划》,德国发布《数字战略 2025》等。政务、金融、交通、电信、医疗等重要行业的数字化转型和升级,离不开综合算力的支持:算力的提升使企业更快地响应市场变化和客户需求,提高生产效率和产品质量,特
黄仁勋北京行引爆AI圈:皮衣战神的商业智慧 7月北京酷暑中,英伟达CEO黄仁勋以标志性皮衣造型亮相,与雷军同框、与路人把酒言欢,一周行程引爆科技圈。这位掌舵全球AI芯片霸主的企业家,在央视专访中袒露"每天担心公司倒闭"的危机感,而这恰恰是英伟达持续创新的密码。从显卡小厂到4.2万亿美元市值的AI算力帝国,黄仁勋的战略思维与管理哲学值得深思:聚焦GPU单点突破、壮士断腕放弃手机市
摘要: 针对PCB板工业质检中小目标(<10×10像素)检测的高漏检率问题,本文提出基于YOLO26的优化方案。通过STAL标签分配、DCFW动态融合等架构特性,结合数据增强(复制粘贴、改进Mosaic)、模型微调(Backbone通道优化、DCFW权重调整)及推理优化(多尺度推理、动态阈值),将漏检率从2.8%降至0.42%。方案在量产场景中验证有效,兼顾精度(误检率0.8%)与实时性(58ms
摘要: 传统工业质检依赖Halcon、OpenCV等图像处理方案,面临规则适配难、小缺陷漏检率高(>5%)、维护成本高等痛点。YOLO26通过轻量化架构(2.2M参数/10.8ms延迟)和PSABlock注意力机制,显著提升小缺陷检测(AP提升10.7%,漏检率降至1.8%),并优化光照鲁棒性。实测显示,YOLO26在精度(96.7% vs 89.3%)、适配效率(8小时 vs 72小时)和成本(
如今,多模态目标检测正向构建统一、高效、能处理复杂真实场景的模型方向发展。从当前研究动态来看,其前沿热点主要集中在四个方面:统一架构设计、面向缺失/噪声的鲁棒学习、与多模态大模型结合提升语义理解,以及开放词汇检测以突破固定类别限制。问哪个发文更好?这就要看你情况,有资源想冲顶会,就试试MLLM+检测,这是当前最热的前沿,不过竞争激烈。想求稳,就在统一框架或开放词汇方向上,针对现有模型的某个具体弱点
AI项目中数据标注工具选择困难?本文从成本、功能、支持、适用场景四个维度深入对比开源工具、商业工具和TjMakeBot。开源工具免费但需技术维护;商业工具功能全面但有订阅费;TjMakeBot免费且具备AI聊天式标注特色功能。通过成本效益分析、功能对比和决策框架,帮助个人开发者、小团队和企业用户找到最适合的标注工具解决方案。
本文提出了一种新型视觉架构CONTAINER(上下文聚合网络),通过统一视角将CNN、Transformer和MLP-Mixer视为空间上下文聚合的特殊形式。该架构融合了长期交互和局部卷积优势,在ImageNet上仅用22M参数即达到82.7%的Top-1精度(比DeiT-Small高2.8%),且200epoch即可收敛至79.9%。其轻量版CONTAINER-LIGHT在下游任务中表现优异,在
AI领域近期迎来多项重要进展:腾讯发布混元图像3.0模型,实现"意图驱动"的精准修图;OpenAI升级ChatGPT Atlas浏览器功能并探索新型商业模式;字节跳动推出AI Agent平台扣子2.0提升办公效率;GitHub热门项目显示AI视频生成、文档检索等技术蓬勃发展。这些创新表明AI正加速向语义理解、多任务处理等方向发展,在图像处理、办公协作、内容创作等领域展现出强大潜
运动目标检测与跟踪是图像信号处理领域的重要应用之一,广泛应用于视频监控、智能交通、机器人视觉等场景。本节将详细介绍运动目标检测与跟踪的基本原理和技术方法,包括背景建模、目标检测、目标跟踪等方面的内容。
基于YOLOv8的甲骨文识别| 2024年 Mathorcup高校数学建模竞赛(D题),阐述了整个数据制作和训练可视化过程
相较于近年来大规模视觉Transformer(ViT)取得的巨大进展,基于卷积神经网络(CNN)的大规模模型仍处于早期阶段。本文提出了一种新的基于CNN的大规模基础模型,称为InternImage,它可以像ViTs那样从增加参数和训练数据中获益。与近期专注于大型密集卷积核的CNN不同,InternImage将可变形卷积作为核心运算符,因此我们的模型不仅具有下游任务(如检测和分割)所需的大有效感受野
【遥感 AI 实战】13 组遥感 / 航拍深度学习数据集分享( 实操代码)
全自动USB包膜机,昆仑通态触摸屏,主站进行松下伺服轴控制,CP1W-40DTIO扩展模块,电装机器人控制,涵盖人机配方一键换型功能,故障记录功能,产量统计及OEE功能,优质的触摸屏程序模板,气缸报警功能,真空报警功能,轴实时位置脉冲转毫米功能块等,可重复调用。在工业自动化现场调试欧姆龙CP1H-XA时,CIF串口模块与PC的LINK通信总是个需要精细调试的环节。调试时最容易翻车的是D32200这
精确率(Precision):预测为正的样本中实际为正的比例召回率(Recall):实际为正的样本中被正确预测为正的比例:各类别AP的平均值,是综合评价指标PrecisionTPTPFPPrecisionTPFPTPRecallTPTPFNRecallTPFNTPmAP1n∑i1nAPimAPn1i1∑nAPi。
数据标注一致性是AI项目成功的关键。本文从心理学角度分析了影响一致性的三大挑战:主观判断差异、疲劳影响和认知偏差。提出了四种解决方案:建立清晰标注规范、使用AI辅助标注、实施多轮质量检查和合理安排工作节奏。通过实际案例展示了这些方法能显著提升标注一致性、准确率和效率。TjMakeBot提供了一站式解决方案,结合AI辅助和人性化设计,帮助团队实现高质量标注。
摘要:针对边缘设备目标检测中传统YOLO模型训练效率低、精度不足的问题,YOLO26创新性地采用MuSGD优化器和ProgLoss渐进损失策略。MuSGD通过动态调整动量系数,相比传统SGD减少35%收敛轮次,量化后精度损失降低80%;ProgLoss则分阶段动态调整损失权重,使小目标AP提升4.1%。二者协同YOLO26的轻量化架构,在Jetson Xavier NX等边缘设备上实现高效训练与精
本文介绍了基于Qwen3-VL模型的物体检测方法,支持批量检测指定类别物体并输出LabelMe格式标注文件和可视化结果。该方法利用Qwen3-VL视觉语言模型实现端到端检测,无需额外训练检测器,通过自然语言提示词约束模型输出。系统提供标准化输出和可视化功能,支持将检测结果自动转换为LabelMe标注格式,并设计了强容错的结果处理机制。文章详细介绍了transformers和vLLM两种实现版本,包
目标检测
——目标检测
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net