西瓜不是很甜个人主页

@2401_83320270

西瓜不是很甜

2025-10-25 19:44:17 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

YOLOv10 卷积层改进：基于 FDConv（频率动态卷积）的动态特征增强

本文提出一种频率动态卷积(FDConv)方法，通过频域构建差异化卷积核来优化特征提取。FDConv包含频域权重分组(FDW)、逆傅里叶变换(IDFT)、核空间调制(KSM)和频带调制(FBM)四个核心模块，能够在频域实现卷积核的动态适配。该方法应用于YOLOv10的P4层C2f模块时，仅增加2%参数量却降低2%计算量，显著提升了多尺度、边缘等细节特征的表达能力。实验表明，FDConv通过频域解耦与

#深度学习 #计算机视觉

YOLOv10原始网络与改进网络层数、参数量及 GFLOPs对比图绘制

本文提供了一种可视化分析YOLOv10模型改进方案开销的方法。通过Python脚本自动生成包含网络层数、参数量、计算量(GFLOPs)和训练时间的四维折线图，直观展示改进模型相对原始YOLOv10s的指标变化。每个子图均标注具体数值及增减百分比，采用动态y轴范围和居中布局确保可视化效果。该方法可量化评估网络结构修改带来的参数与算力波动，为后续模型优化提供直观参考。示例对比了YOLOv10s和YOL

yolov10卷积层改进：动态卷积：DynamicConv（替换softmax），在C2fCIB和P4层Bottleneck结构中嵌入动态卷积

摘要：动态卷积通过多专家卷积核自适应组合，克服传统固定卷积模板的局限性。其核心是使用注意力机制生成样本专属权重，加权融合多个预定义卷积核。原实现采用Softmax路由配合温度退火策略防止专家退化，现改进为Sigmoid激活实现更稳定的多专家协同学习。具体实现包含：1）注意力模块输出Sigmoid权重；2）动态卷积模块加权聚合专家核；3）在C2fCIB和P4层Bottleneck结构中嵌入动态卷积。

#深度学习 #cnn

yolov10的注意力机制改进：坐标注意力（CoordinateAttention）

摘要：本文介绍了CVPR2021提出的CoordinateAttention机制，该机制通过分解通道注意力为水平和垂直方向的1D编码，有效解决了传统方法丢失位置信息的问题。文章详细展示了Python实现代码，并说明如何在YOLOv10中进行改进：在backbone的C2fCIB和SPPF模块间嵌入该模块。具体修改包括创建新模块目录、修改tasks.py解析函数以及调整yaml配置文件。最终通过模型

#深度学习 #人工智能

论文收获：OracleNet: enhancing OBS recognition with Adaptive Deformation and Texture-Structure Decoupling

本文提出OracleNet模型用于甲骨文识别，通过三个创新模块解决现有技术难题：自适应变形模块(ADM)实现精细局部控制，保留字符结构特征；纹理-结构解耦模块(TSDM)分离纹理与结构信息；多层结构化感知注意力模块(MLSPAM)从宏观和微观层面捕捉关键特征。实验表明，该模型在Oracle-241、OBC306和Oracle-MNIST三个数据集上均取得优异性能，有效克服了甲骨文字注释数据稀缺、纹

#人工智能 #论文阅读

论文收获：OBI综述

本文系统综述了甲骨文信息处理领域的研究进展与挑战。文章从数据、方法、评测三个维度梳理了甲骨文识别、缀合、分类和释读四大核心任务，分析了传统专家主导、计算机辅助、数据驱动深度学习和多模态大模型四个发展阶段。研究指出，当前面临数据壁垒、异构表征、评测标准等挑战，并展望了文本生成甲骨文、专用基础模型、三维重建等未来方向。文章为跨学科研究者提供了全面参考，助力推动甲骨文数字化保护与智能化研究进程。

#人工智能 #论文阅读

yolov10的注意力机制改进：小波域注意力（WaveletDomainAttention）WDA

摘要：文章提出了一种基于小波域注意力（WaveletDomainAttention）的YOLOv10改进方法。该模块采用离散小波变换将特征图分解为四个频带，通过频带注意力机制动态学习各子带权重，再经逆变换重建特征。在YOLOv10中实现了两种改进方案：1) 在骨干网络的C2fCIB和SPPF模块之间插入WDA模块；2) 用新设计的PSA_WDA模块替换原有PSA模块，结合注意力机制降低计算量。详细

#深度学习 #人工智能

Vision Transformer(ViT)正余弦位置编码，解决空间顺序感知

本文介绍了Vision Transformer（ViT）中位置编码的核心机制。ViT通过将2D图像切分为1D Patch序列处理视觉任务，但Transformer自注意力机制缺乏空间顺序感知能力。位置编码通过正弦/余弦函数和缩放因子为每个Patch注入空间信息：将位置索引转换为多维编码矩阵，其中快变化维度区分相邻位置，慢变化维度识别远距离关系。这种设计使模型能通过注意力点积运算准确判断Patch的

#transformer #深度学习 #人工智能

YOLO数据集制作及使用

本文介绍了YOLOv10目标检测训练所需的数据集目录结构规范。数据集应采用分层目录，包含train/valid/test三个子集，每个子集下分别存放images和labels文件夹，图片与标签文件需同名对应。标签文件采用YOLO标准格式，记录类别ID和归一化坐标。核心配置文件data.yaml需指定数据集路径、类别数量和名称。训练时可选择不同规格的预训练模型（n/s/m/b/l/x），通过调整ep

#目标跟踪 #人工智能

yolov10的注意力机制改进：高效多头自注意力（EfficientMultiheadAttention）

本文提出了一种结合小波变换与注意力机制的新型模块WaveletDomainAttention(WDA)，通过离散小波变换将输入特征分解为多频带分量，利用注意力机制自适应加权各频带信息后重建特征。该模块具有频域局部化和动态加权的优势，能有效增强纹理特征提取。研究详细介绍了在YOLOv10中的两种改进方案：一是在骨干网络中直接嵌入WDA模块，二是构建PSA_WDA模块替代原有PSA结构以控制计算量。实

共 11 条

请选择