登录社区云,与社区用户共同成长
邀请您加入社区
在无约束场景里做人脸检测+关键点定位,一直被姿态、光照、遮挡搞得头疼。传统方法要么检测不准,要么对齐拉胯,MTCNN直接用三级联CNN+多任务联合学习,把检测、框回归、关键点定位串在一起,又快又准,直到今天还是工业界落地标配。这篇就带你把MTCNN从头到尾啃透。三级级联CNN:从粗到细过滤,速度与精度平衡多任务联合学习:检测+框回归+关键点定位一起训,互相增益在线难例挖掘:自动提升模型判别力,不用
本研究提出了一种基于卷积神经网络和YOLOv10算法的儿童自闭症早期诊断方法。通过Python编程和PyCharm平台开发,系统实现了对儿童动作视频的精准跟踪与分析,构建了从数据预处理到特征分析的完整技术链条。相比传统主观诊断方式,该方案在客观性、效率和可重复性方面具有显著优势。实验结果表明,该方法在动作跟踪和自闭症诊断方面效果良好,为临床筛查提供了新思路。不过研究仍存在数据集规模有限、场景单一等
在语义分割领域,FCN虽然实现了端到端像素级预测,但在复杂场景中经常闹笑话:把河里的船认成汽车、把楼认成摩天楼、小目标枕头直接忽略。核心原因就是缺乏全局上下文信息。PSPNet横空出世,提出金字塔池化模块(PPM),把不同尺度、不同区域的全局特征融合进来,再搭配深度监督损失稳定训练,直接拿下2016年ImageNet场景解析、PASCAL VOC 2012、Cityscapes三个榜单第一,单模型
在日常工作中,我专注于并行计算领域,主要依托GPGPU、NPU等高算力芯片进行开发。当前,高算力与AI已深度融合,计算与人工智能二者相辅相成:底层计算为实现通用算法与算子提供基础,而AI模型则能反哺并优化传统算法的决策效率与性能。为系统构建这方面的知识体系,我在公司导师的推荐下,跟随up主“霹雳吧啦Wz”的CNN系列视频进行学习,并通过博客记录学习过程,融入自己的理解与总结。
目录1. LeNet(90/98)诞生于1990年,在手写体字符识别领域创造性的引入了卷积神经网络的基本操作,意义重大,可以说是现代卷积神经网络的发展起点。1.1思路引入卷积层+池化层等结构1.2 网络结构输入图像分辨率:28x28结构:(1)卷积层1:5x5 --->输出4个24×24大小的特征图;(2)池化层1:平均池化层 2x2;(3)卷积层2:5x5 --->输出12个8x8大小的特征图;
本文介绍了一个基于PyTorch框架的西红柿病虫害识别系统,采用ResNet50、VGG16、ResNet34等卷积神经网络模型进行图像分类。系统提供GUI和Web两种界面,支持模型融合和性能对比。项目包含完整的数据集、代码和训练好的模型,可实现病虫害识别、训练过程可视化(准确率/损失曲线)、模型评估(混淆矩阵、热力图等指标)。系统支持自定义数据集训练,详细记录了模型训练过程和性能参数,适用于农业
本文介绍了一种基于灰狼优化算法(GWO)结合卷积双向长短期记忆神经网络(CNN-BiLSTM)和自注意力机制的多变量多步时间序列预测方法。该方法采用MATLAB实现,包含数据生成、模型构建、训练评估全流程,主要特点如下: 采用GWO优化CNN-BiLSTM网络超参数,结合局部精修策略提高模型性能 网络结构包含1D卷积层、双向LSTM层和自注意力机制,可有效捕捉时序特征 支持增量预测模式,先预测相对
这篇文章介绍了一个基于卷积神经网络的草莓病虫害识别和防治系统。该系统采用PyTorch框架,包含ResNet50、VGG16、ResNet34三种模型以及模型融合技术,可实现草莓病虫害的图像分类识别。项目提供了GUI界面(PySide6)和Web前端界面(Flask+Vue)两种操作方式,支持训练过程可视化、模型评估(准确率、混淆矩阵等指标)和预测报告生成。系统完整包含代码、预训练模型、数据集及运
YOLO26创新改进:CARAFE特征上采样方法提升精度 摘要:本文介绍CARAFE(内容感知特征重组)上采样方法,通过利用输入特征内容指导上采样过程,显著提升特征重建精度。相比传统插值和反卷积,CARAFE能生成位置自适应的重组核,在目标检测、分割等任务中表现优异。该方法可无缝集成到YOLO等网络,仅需简单修改YAML文件和tasks.py即可实现。实验验证表明,CARAFE能有效保留细节信息,
在当今数字化时代,多变量时间序列数据广泛存在于各个领域,如能源、金融和工业物联网等。准确预测这些时间序列对于决策制定、资源管理和系统优化至关重要。传统的预测模型在处理复杂的多变量时间序列时面临诸多挑战,如难以捕捉变量间的复杂关系、对长期依赖的建模能力有限以及容易陷入局部最优等问题。
这篇文章介绍了一个基于PyTorch框架的葡萄病虫害识别和防治系统。系统采用多种卷积神经网络模型(ResNet50、VGG16、ResNet34)进行图像分类,支持模型融合对比。项目包含完整的GUI界面(PySide6)和Web前端界面(Flask+Vue),提供训练过程可视化、模型评估指标(准确率、混淆矩阵等)和预测报告生成功能。文章详细说明了项目结构、数据集展示、界面截图以及核心训练代码,并提
摘要:本项目基于PyTorch框架开发了一个玉米叶片虫害识别系统,采用ResNet50、VGG16、ResNet34三种卷积神经网络模型及模型融合技术。系统提供GUI(PySide6)和Web(Flask+Vue)两种交互界面,支持图像分类、模型训练与评估功能。项目包含完整代码、预训练模型、数据集及可视化工具,可输出训练曲线、混淆矩阵、热力图等评估指标。所有模型均可独立使用或对比分析,适合直接部署
在日常工作中,我专注于并行计算领域,主要依托GPGPU、NPU等高算力芯片进行开发。当前,高算力与AI已深度融合,计算与人工智能二者相辅相成:底层计算为实现通用算法与算子提供基础,而AI模型则能反哺并优化传统算法的决策效率与性能。为系统构建这方面的知识体系,我在公司导师的推荐下,跟随up主“霹雳吧啦Wz”的CNN系列视频进行学习,并通过博客记录学习过程,融入自己的理解与总结。提出:2014年由Go
将提取到的碎片特征,与端侧离线标准特征库进行高精度匹配(采用欧氏距离匹配算法,匹配阈值≤0.15),结合条码编码规则与纠错冗余机制,补全缺失的条码模块、修复断裂的边缘、修正畸变的结构,还原条码的标准形态,修复准确率≥92%。AI图像优化技术的核心逻辑是“条码结构化特征提取+端侧离线匹配修复”,基于CNN、U-Net等深度学习模型,实现难读码图像的精准重建,突破传统光学识别的局限,其核心技术架构分为
针对旋转机械故障诊断中,传统方法难以有效提取非平稳振动信号的时频特征、诊断精度不足且泛化能力有限的问题,本文提出基于连续小波变换(CWT)与多种深度学习及混合模型的故障诊断方案,以凯斯西储大学(CWRU)轴承故障数据集为研究对象,系统对比卷积神经网络(CNN)、残差网络(ResNet)、CNN-SVM、CNN-BiGRU、CNN-LSTM五种模型的故障诊断性能。首先通过连续小波变换将原始振动信号转
本文创新首发一种基于LEA(Learning Enhancement Algorithm,学习增强算法)优化的卷积神经网络(CNN)回归预测模型——LEA-CNN,系首次将LEA算法与CNN网络深度融合应用于回归预测任务,具备鲜明的技术创新性、先用先发优势,可作为各类回归预测场景的对比算法,为深度学习回归任务提供全新的优化思路与技术方案。
摘要:该项目基于PyTorch框架开发了樱桃病虫害识别系统,采用ResNet50、VGG16、ResNet34三种卷积神经网络模型及模型融合方案。系统提供GUI(PySide6)和Web(Flask+Vue)双界面,支持训练过程可视化、模型评估(混淆矩阵、准确率等指标)及热力图生成。项目包含完整代码、预训练模型和数据集,可在PyCharm/VS Code+Anaconda环境中运行,输出训练曲线、
本文提出了一种基于PCA-CNN-LSTM的锂电池剩余寿命(RUL)预测方法。该方法首先对电池的5种退化特征进行主成分分析(PCA)降维,然后结合一维卷积神经网络(CNN)和长短期记忆网络(LSTM)构建预测模型。通过随机搜索和局部精调优化超参数,采用自定义训练循环完成模型训练,并引入早停机制防止过拟合。实验结果表明,该方法在测试集上取得了57.6的均方根误差和42.9的平均绝对误差,预测结果与实
本文介绍了一个基于卷积神经网络的咖啡豆缺陷识别系统,采用PyTorch框架实现,包含ResNet50、VGG16和ResNet34三种模型。系统支持GUI(PySide6)和Web(Flask+Vue)两种界面,功能相同。项目结构完整,包含数据集、训练代码和模型评估功能,可输出训练曲线、混淆矩阵、热力图等指标。系统支持自定义数据集训练,操作简单,只需指定数据集路径、模型和训练轮数即可运行。项目提供
完全沿用你之前RNN表格格式思维模式解决核心问题技术支撑理论意义局部相关性先验图像空间冗余连接局部连接机制放弃全连接暴力建模,利用图像天然结构先验空间参数共享位置差异、参数爆炸、过拟合滑动卷积权重复用实现特征位置无关提取,极大轻量化模型层次化特征抽象底层像素到高层语义建模多层卷积堆叠融合复刻视觉认知规律,实现高阶目标识别空间聚合降维鲁棒特征冗余、形变干扰、计算量大池化下采样操作信息提纯,提升模型抗
本文介绍了一个基于CNN-GRU混合神经网络的锂电池剩余寿命(RUL)预测项目。该项目利用一维CNN提取电池运行数据的局部特征,结合GRU网络建模时序依赖关系,通过端到端训练实现高精度RUL预测。文章分析了项目意义,包括提升电池管理、增强安全性、推动智能BMS发展等,并针对数据质量、标签稀缺、模型优化等挑战提出了解决方案。项目采用MATLAB实现,包含数据预处理、网络架构设计、模型训练与评估等完整
目录项目背景我是怎么把模型结构一步步定下来的代码实现是怎么串起来的核心原理怎么落到我的代码上结果怎么看,模型到底有没有发挥作用为什么我还要专门做 SHAP总结与反思不是把模块堆长就行:我用 GA + CNN + TCN + BiLSTM + Attention + SHAP 做锂电 SOH 预测的一次真实代码复盘这次我想认真复盘的,不是一篇把模型名字串起来的“组合拳介绍”,而是我在一个锂电池 SO
AlexNet是由Alex Krizhevsky等人提出的,在2012年ImageNet大规模视觉识别挑战赛(ILSVRC)中取得了惊人的成果,显著降低了错误率,推动了深度学习的兴起。CNN的优势在于能够自动从原始数据中提取有用的特征,避免了传统计算机视觉方法中需要手动设计特征的复杂性。:VGGNet由牛津大学计算机视觉组提出,以其简单而深度的网络结构为特点,对后续CNN网络的设计有很大的影响。下
随着自动驾驶技术的快速发展,道路场景理解成为智能驾驶系统的核心技术之一。然而,在夜间或低光照条件下,传统道路识别算法面临图像质量下降、特征提取困难等挑战,同时实时性要求限制了复杂深度模型的应用。针对这些问题,本文提出了一种基于低光照增强与轻量型CNN的道路实时识别算法。
本文提出了一种协同CNN-Transformer网络(SCTNet)用于高光谱图像分类,通过双分支特征提取模块(TBFE)并行利用2D和3D卷积捕获局部空间-光谱特征,并设计混合池化注意力模块(HPA)增强特征表示。该网络还引入跨层特征融合机制(CFF)聚合Transformer编码器的多层输出,有效保留浅层关键信息。实验结果表明,SCTNet在五个基准数据集上超越了现有方法,包括最新的SS-Ma
最后,我简单总结一下。本次设计我完成了基于 CNN 的手写数字识别系统,覆盖了从数据处理到模型应用的全流程。核心亮点在于两点训练阶段:采用了旋转和平移的数据增强手段,提升了模型对真实书写变形的抗干扰能力。网络结构:加入了 BN 稳压器加速收敛、Dropout 随机断电防止过拟合,使得特征提取又快又稳。最终模型结构合理,识别效果优良,圆满达到了设计要求。未来可以在优化网络深度、扩展至字母识别或开发可
本文介绍了一个基于MATLAB实现的TCN-Attention时间卷积神经网络项目,用于多变量时间序列的回归区间预测。该项目融合了时间卷积网络(TCN)和注意力机制,通过扩张卷积捕获长时依赖关系,利用双重注意力机制动态调整特征权重。模型架构包含输入预处理、TCN模块、注意力机制和输出回归模块,支持多变量输入并输出预测区间。文章提供了详细的代码实现,包括扩张卷积层、残差块、自定义注意力层等核心组件,
本文提出了一种基于GA-CNN-RNN混合算法的无人机三维路径规划方法。该方法结合遗传算法(GA)的全局搜索能力、卷积神经网络(CNN)的环境特征提取能力和循环神经网络(RNN)的路径序列评估能力,在MATLAB R2025b环境下实现。首先通过三维环境建模构建障碍体素空间,利用CNN提取环境代价特征;然后采用RNN评估路径序列质量;最后通过遗传算法优化路径,综合路径长度、安全距离等多目标约束。实
摘要:该项目基于PyTorch框架开发了一个枸杞虫害识别和防治系统,采用ResNet50、VGG16、ResNet34等卷积神经网络模型,支持模型融合对比。系统提供GUI(PySide6)和Web(Flask+Vue)两种界面,包含完整的训练测试流程、模型评估指标(准确率、召回率等)及可视化功能(热力图、特征图等)。项目提供完整代码、预训练模型和数据集,支持自定义数据集训练,适合图像分类相关研究和
在日常工作中,我专注于并行计算领域,主要依托GPGPU、NPU等高算力芯片进行开发。当前,高算力与AI已深度融合,计算与人工智能二者相辅相成:底层计算为实现通用算法与算子提供基础,而AI模型则能反哺并优化传统算法的决策效率与性能。为系统构建这方面的知识体系,我在公司导师的推荐下,跟随up主“霹雳吧啦Wz”的CNN系列视频进行学习,并通过博客记录学习过程,融入自己的理解与总结。图中展示了VGG网络的
摘要:本项目基于PyTorch框架开发了马铃薯病虫害识别系统,采用ResNet50、VGG16、ResNet34及模型融合技术,支持GUI和Web两种交互界面。系统实现了图像分类、模型可视化、热力图生成等功能,可输出训练曲线、混淆矩阵等评估指标。项目提供完整代码、预训练模型和数据集,支持自定义数据训练,包含详细的运行环境配置指南。关键技术包括PySide6、Flask、OpenCV等,适用于PyC
摘要:本文探讨了FPGA实现卷积神经网络(CNN)的关键技术。首先介绍了FPGA定点运算方法,采用Q7.8格式表示16位定点数,并给出了乘法和加法的Verilog实现。随后详细阐述了CNN各层的FPGA实现方案:通过并行乘法器和加法树实现3×3卷积运算;采用符号位检测实现ReLU激活函数;使用分段线性近似实现Sigmoid函数;设计比较器实现最大池化层;基于乘累加结构实现全连接层;以及将批归一化层
在日常工作中,我专注于并行计算领域,主要依托GPGPU、NPU等高算力芯片进行开发。当前,高算力与AI已深度融合,计算与人工智能二者相辅相成:底层计算为实现通用算法与算子提供基础,而AI模型则能反哺并优化传统算法的决策效率与性能。为系统构建这方面的知识体系,我在公司导师的推荐下,跟随up主“霹雳吧啦Wz”的CNN系列视频进行学习,并通过博客记录学习过程,融入自己的理解与总结。历史地位:2012年I
卷积网络的根本价值,不只是“能做图像分类”,而是它把视觉任务中最核心的结构性先验直接写进了模型:局部感受野、参数共享、层级特征提取、一定程度的平移鲁棒性。
在ViT出现之前,CV界是CNN一家独大,ResNet、EfficientNet等卷积架构统治图像分类多年。做视觉必须用卷积,纯Transformer不行。直到Google Brain团队扔出这篇ICLR 2021的封神之作——,直接用纯Transformer在图像分类任务上干翻SOTA卷积模型,正式开启Transformer统治CV的新纪元。今天这篇精读,从背景痛点→模型结构→公式推导→图解架构
该研究聚焦视觉-语言预训练(VLP)模型的对抗性攻击,首先通过分析不同攻击设置在两类 VLP 模型和三类下游任务中的表现,得出关键结论:扰动双模态输入比单模态更有效、攻击全嵌入比 [CLS] 嵌入(图像模态)或反之(文本模态)更优、ViT 作为图像编码器比 CNN 更鲁棒;随后提出协同多模态对抗攻击(Co-Attack),通过协同扰动图像与文本模态(先优化离散文本再优化连续图像),解决独立攻击的
Cascade R-CNN 的提出是为了解决目标检测中高质量检测(High Quality Detection)的难题。低质量检测的现状:传统检测器(如 Fast/Faster R-CNN)通常使用较低的 IoU(交并比)阈值(如 0.5)来定义正样本。这导致模型训练容易,但输出的边界框(Bounding Box)往往不够精确,包含大量“接近但错误”的负样本(Close False Positiv
这是我设计这套算法时最关键的一步。我之所以先用 CEEMDAN,是因为它对非线性、非平稳信号的适应性很好。CEEMDAN 可以把原始序列分解为若干本征模态函数 IMF,它不像固定基函数分解那样要求序列必须满足比较强的先验假设,更适合真实时间序列这种复杂信号。按照 CEEMDAN 的分解特点,前面的 IMF 一般对应更高频的波动,后面的 IMF 更接近低频趋势。但我在实际看分解结果时很快发现,只做一
cnn
——cnn
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net