登录社区云,与社区用户共同成长
邀请您加入社区
本文围绕“中药材智能识别”这一典型的 AI 落地场景,系统性地介绍了一个基于 YOLOv8 的 100 类中药材目标检测工程实践。从问题背景、数据集设计、模型选型,到训练评估、推理实现以及 PyQt5 可视化部署,完整呈现了一个可复现、可扩展、可实际使用的计算机视觉项目闭环。该方案不仅验证了 YOLOv8 在多类别、小目标复杂场景下的有效性,也体现了将深度学习模型工程化、产品化的实现路径。对于希望
综合评估,基于视觉分析的高速公路车速实时监测方案在技术上是可行且日益成熟的。它不仅仅是一个测速工具的替代品,更是构建“可感知、可计算、可管控”的下一代智慧高速公路神经系统的关键感知层。其成功实施,将推动高速公路管理从“响应式”向“预见式”、从“分段式”向“一体化”深刻转型。未来,该方案可与车路协同技术深度融合,为自动驾驶车辆提供超视距的道路状态信息;也可与气象数据结合,实现基于能见度和路面湿滑状态
此类行为不仅容易导致犬只走失、受伤或发生交通事故,更可能因犬只失控而引发邻里纠纷,甚至造成人身伤害,尤其对儿童、老人及怕犬人士构成潜在威胁。尽管多地已出台相关管理条例,明确要求携犬出户时必须使用牵引绳,但由于缺乏高效、常态化的监管手段,违规行为仍难以被实时发现与取证。因此,探索利用计算机视觉技术,特别是基于深度学习的实时目标检测算法,对公共区域中“遛狗未牵绳”行为进行自动识别与预警,成为提升城市宠
本文全面解析YOLO目标检测算法的发展历程与技术特点。文章首先对比CNN与YOLO的本质区别,指出CNN是基础组件而YOLO是完整解决方案。随后详细梳理YOLO从v1到最新版本的演进之路,包括各版本核心创新与性能提升。重点分析了目标检测算法的两大类别(Two-stage与One-stage)的技术差异,并通过YOLOv1的实例详解其将检测转化为回归问题的核心思想。文章还介绍了非极大值抑制(NMS)
数据标注质量是AI项目成功的关键因素。研究表明,超过60%的AI项目失败源于数据标注问题,包括标注准确性、一致性和完整性问题。常见的陷阱包括认知偏差导致的标注错误、标注标准不统一、数据不平衡以及标注工具限制。这些质量问题会显著降低模型性能,放大项目成本。解决方案包括采用AI辅助标注工具(如TjMakeBot)、建立详细标注规范、实施质量保证流程以及平衡数据集。高质量的数据标注虽然前期投入较大,但能
本项目基于先进的YOLOv11目标检测算法,开发了一套高效、精准的船舶图像分类与检测系统。该系统能够对输入图像或视频中的船舶目标进行实时定位(Bounding Box)并准确分类为五大特定类别:集装箱船(Container Ship)、邮轮(Cruise Ship)、军用船舶(Military Ship)、滚装船(RORO)以及油轮(Tanker)。YOLOv11作为YOLO系列的最新迭代,其在检
本项目基于先进的YOLOv12目标检测算法,开发了一套高性能的船舶图像分类与检测系统。该系统能够精准地识别和定位图像或视频流中的船舶,并将其自动分类为五大特定类别:集装箱船(Container Ship)、邮轮(Cruise Ship)、军用船舶(Military Ship)、滚装船(RORO) 和 油轮(Tanker)。YOLOv12作为YOLO系列的最新迭代,在检测速度与精度上实现了显著提升,
本项目基于YOLOv10目标检测算法开发了一套专注于森林与野外环境的火灾火焰及烟雾识别系统。模型采用YOLOv10进行训练,能够实现高精度、低延迟的实时火灾预警检测。系统针对森林、山区、草原等开阔野外场景中的早期火情进行监控,可有效识别两类目标:'fire'(明火火焰)和'smoke'(烟雾),适用于无人机巡检、固定监控点等多种部署环境。模型在复杂自然背景下仍能保持较高的召回率和准确率,显著提升了
计算机视觉爱好者,有自己的算力(8块2080Ti),熟练运用pytorch深度学习框架,擅长图像分类、目标检测、图像分割应用。有需要的小伙伴可以加我微信tiankongdecheng1
在AI现场应用中,都是通过摄像头采集视频图像,再利用算力设备的算力,进行算法分析处理,得到结果。算力设备主要分为GPU服务器、边缘设备、端侧嵌入式设备。而本文则是将安卓手机(内部有一个AI算力芯片)当作一个端侧嵌入式设备,可以进行一些简单轻量级的AI算法模型处理。主要完成了yolov5在服务器上进行完整的一次训练过程。并利用Windows上的VS软件的远程连接,通过跨平台应用系统Aidlux在安卓
最终,这种合作关系的理想图景,是人类与机器在创造的过程中相互启发,共同探索未知的美学疆域,见证一种新的艺术形态的诞生,其中人性的温度与机器的计算力交织成一曲宏大的创造性交响乐。协同艺术的价值,正在于人类利用AI突破技术执行的壁垒,同时以其独特的人文精神弥补AI在原创性与深度上的不足,最终实现一加一大于二的效果。一位画家可能利用AI生成数十幅风景的初稿,却只从中汲取一抹云彩的光影和一座山峦的轮廓,再
证明FPN的成功是得益于分而治之的策略,并非多尺度特征融合,融合带来的提升远不止带来的计算力收益高。相对的提出了代替方案YOLOF,只需要一层特征图,速度更快,且精度与FPN相匹配。
导致的原因一般都是显卡算力和cuda或者torch版本不匹配由于我是自己去下载的torch和torchvision可能没下好对应的关系,于是我卸载了相对应的torch和torchvision,运行下面的命令 安装了对应的版本conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2 cudatoolkit=11.0 -c py
成功消除了安防与工控之间的技术鸿沟。它让摄像头不再仅仅是“眼睛”,更成为了能直接参与生产控制的“大脑”,为工业现场的智能化升级提供了高性价比的边缘算力底座。在机器手臂防碰撞、AGV 视觉导航或产线异常监测中,我们需要将安防摄像头(IPC)采集的 RTSP 视频流实时转化为控制信号。这种物理隔离设计防止了视频广播风暴影响控制网络的稳定性。环境下,使用 Rockchip 的。工厂环境复杂,设备必须“皮
并不是在堆砌参数,而是在“算力”与“功耗”之间找到了一个极佳的平衡点。它证明了不需要几百瓦的显卡,仅用。在没有市电接入的太阳能监控杆或移动机器人上,每一毫瓦都至关重要。如何在 5W 功耗下“吞吐”视频流?的出现,正是为了打破这一僵局。根据产品规格书,其核心板 TDP 仅为。的功率,依然可以构建一套支持大模型、多路视频分析的智能化边缘节点。RK3576 之所以能实现极致能效,源于其精妙的。,却集成了
如何从图像中解析出可供计算机理解的信息,是机器视觉的中心问题。深度学习模型由于其强大的表示能力,加之数据量的积累和计算力的进步,成为机器视觉的热点研究方向。那么,如何理解一张图片?根据后续任务的需要,有三个主要的层次。图像理解的三个层次一是分类(Classification),即是将图像结构化为某一类别的信息,用事先确定好的类别(string)或实例ID来描述图片。这一任务是最简单、最基础的图像理
【摘要】针对工业边缘侧AI算力不足与版本兼容性问题,推出两款高性能工业级AI推理机:丽核AI(270TOPS算力)和驭芯AI系列(K400/Z500)。产品采用即插即用设计,无需更换工控机即可提升算力,具备工业级稳定性,支持宽压直流供电和严苛环境运行。适用于视觉检测、预测性维护等场景,实现低延迟实时处理,解决"新版本不稳定、老版本性能低"的痛点。通过专用算力补充,显著提升工业A
从感知机到深度生成网络,这场由数据和算力驱动的认知革命正在重塑人类社会的知识边界。本文将系统解构深度学习的数学本质,梳理从单层网络到万亿参数大模型的进化路径,为开发者提供一张通向智能本质的认知地图。
测试基于Atlas 300I Duo的单310P3核心,实现了10路1080p视频的YOLOv8n实时检测,核心处理流程包含14个关键步骤,覆盖拉流、解码、推理、可视化到推流全链路。开发时需重点关注昇腾Device/Context管理及DVPP V2接口的使用规范,可参考官方Demo快速落地。
复制算子代码文件# 修改头文件(drawbbox_cust_kernels.h)# 1. 宏定义:_AICPU_DRAWBBOX_CUST_KERNELS_H_# 2. 类名:DrawbboxCustCpuKernel# 修改实现文件(drawbbox_cust_kernels.cc)# 1. 头文件:#include "drawbbox_cust_kernels.h"# 2. 算子名:const
AI正在重塑客户调研范式,突破传统方法的局限。通过动态微细分、无意识需求挖掘、预测性分析等技术,AI实现了全景式客户洞察:从行为模式聚类到深层需求识别,从实时干预到文化趋势预测。实施路径分为数据建设、分析构建、洞察整合和文化转型四个阶段。未来将向增强型研究、融合型理解和共生型关系演进,但需平衡能力与伦理责任。AI将客户研究从描述性科学升级为预测性艺术,推动企业从"了解客户画像"
本文提出了一种双重聚合Transformer(DAT)用于图像超分辨率重建。DAT通过块间和块内的双重方式在空间和通道维度上聚合特征:块间采用交替堆叠的空间-通道Transformer块实现信息互补,块内则通过自适应交互模块(AIM)和空间门控前馈网络(SGFN)实现特征融合。AIM通过双向交互操作(空间交互S-I和通道交互C-I)将全局自注意力与局部卷积特征深度融合;SGFN则利用空间门控机制增
与传统方法不同,MusicGen采用单个stage的Transformer LM结合高效的token交织模式,取消了多层级的多个模型结构,例如分层或上采样,这使得MusicGen能够生成单声道和立体声的高质量音乐样本,同时提供更好的生成输出控制。请注意,传递给 generate 方法的任何参数都将取代生成配置中的参数,因此在调用 generate 中设置 do_sample=False 将取代生成
SSD是单阶段的目标检测算法,通过卷积神经网络进行特征提取,取不同的特征层进行检测输出。SSD采用了多尺度检测方法,浅层用于检测小目标,深层用于检测大目标。SSD目标检测主流算法分成可以两个类型:1.two-stage方法:RCNN系列2.one-stage方法:YOLO和SSD。
SSD特点:SSD是一种单阶段目标检测算法,与两阶段方法(如RCNN系列)相比,它不需要生成候选区域再进行分类和回归,而是直接通过卷积神经网络(CNN)输出类别和位置信息。性能:使用Nvidia Titan X,在VOC 2007测试集上,SSD在300x300输入尺寸时达到74.3% mAP和59FPS,在512x512输入尺寸时达到76.9% mAP,超越了当时最强的Faster RCNN。
SSD,全称Single Shot MultiBox Detector,是Wei Liu在ECCV 2016上提出的一种目标检测算法。使用Nvidia Titan X在VOC 2007测试集上,SSD对于输入尺寸300x300的网络,达到74.3%mAP(mean Average Precision)以及59FPS;对于512x512的网络,达到了76.9%mAP ,超越当时最强的Faster R
SSD(Single Shot MultiBox Detector)是一种高性能的目标检测算法,由Wei Liu在2016年提出。该算法在处理不同输入尺寸时表现卓越,尤其在VOC 2007测试集上,300x300的网络达到了74.3%的平均精度(mAP)和59帧每秒(FPS),而512x512的网络达到了76.9%的mAP,超越了当时的Faster R-CNN(73.2%mAP)。SSD的设计理念
为了使MindSpore更好地与其他系统融合,我需要深入了解其API和集成方式,并进行必要的定制和开发工作。Neck:相比于YOLOv4的SPP模块(左),SPPF模块将原SPP中的k=5,9,13的MaxPool + skip的分支,替换成了CBL + 串行通过三个最大池化层。比如说YOLOv5,他的网络结构相比YOLOv4,主要改进点在BackBone,Neck和部分,而Head部分则与v3和
生成压缩包之后不要用onnx2om.py转换,用如下命令:然后在预处理倒数第二行加入/255.0。
特征融合:融合浅层的高分辨率特征和深层的语义特征。例如,可以将较低层的特征图与较深层的特征图进行融合,这样可以结合浅层特征图的细节信息和深层特征图的语义信息,从而改善对小目标的检测。调整默认框(default boxes)的设置:减小默认框的大小和比例,使其更适合小目标的尺寸和形状,增加对小目标的覆盖范围。增加小目标的训练数据:通过数据增强技术,如旋转、缩放、翻转等,增加小目标的样本数量,以提高模
keep = []breakres = {}"""""""""else:else:else:lr = 0.0opt(grads)训练及测试结果总结。
本节学习了SSD目标检测算法,了解了SSD算法可以分为两类:1.two-stage方法:RCNN系列通过算法产生候选框,然后再对这些候选框进行分类和回归。2.one-stage方法:YOLO和SSD直接通过主干网络给出类别位置信息,不需要区域生成。通常情况下,one-stage方法速度更快,two-stage方法精度更高。
SSD目标检测-昇思25天打卡
摘要:本文介绍了在Atlas 200I DK A2开发板上优化DeepLabV3+语义分割模型的方法。通过将PyTorch模型转换为MindSpore,并采用静态图模式(Graph Mode)结合算子融合技术,显著提升了推理性能。重点分析了Conv2D-BatchNorm-ReLU序列的融合原理,对比了传统写法与优化写法(nn.Conv2dBnAct)的效果。实验显示,优化后模型推理延时从520m
SSD作为目标检测算法与R-CNN系列的双阶段目标检测不同,其采用端到端的训练方式实现单阶段检测,与同为单阶段目标检测算法的YOLO 系类齐名。昇思25天学习打卡营第7天,实现SSD目标检测模型的训练与验证。
近些年,随着基于自注意(Self-Attention)结构的模型的发展,特别是Transformer模型的提出,极大地促进了自然语言处理模型的发展。由于Transformers的计算效率和可扩展性,它已经能够训练具有超过100B参数的空前规模的模型。ViT则是自然语言处理和计算机视觉两个领域的融合结晶。在不依赖卷积操作的情况下,依然可以在图像分类任务上达到很好的效果。
目标检测
——目标检测
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net