logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

使用AlexNet进行手写数字识别:项目结构与代码

一、文件目录结构二、各部分代码将train.py调整一下结构后,三部分代码内容为:train.py'''复现AlexNetMNIST 数据集 大小28x28'''import torchimport torch.nn as nnfrom torchvision.datasets import MNISTimport torchvision.transforms as transformfrom t

#深度学习#python#神经网络
目标检测之3维合成

现在有一系列的图片,图片之间可以按照z轴方向进行排列。图片经过了目标检测,输出了一列写的检测框,现在的需求是将检测框按类别进行合成,以在3维上生成检测结果。思路:将图片按照z轴方向排列,以z轴索引作为检测框的z值。等同于输入为(x, y, w, h, z, class_id),可以计算得到每个检测框的中心点来标定这个框(x_center, y_center, z, class_id)。然后可以通过

文章图片
#目标检测#机器学习#人工智能
传统目标检测方法研究(三)采用支持向量机实现行人检测

1.4 HOG特征+支持向量机实现行人检测为了把前面知识串起来,参考书籍做了以下实验。import cv2import matplotlib.pyplot as pltfrom matplotlib import patchesimport numpy as npimport randomimport osfrom numpy.lib.shape_base import take_along_ax

文章图片
#目标检测#支持向量机#python
传统目标检测方法研究(二)

1.3 特征分类特征分类:最后,对上一步得到的特征进行分类,通常使用如 SVM、AdaBoost的分类器。1.3.1 支持向量机支持向量机参考视频1.3.2 python-opencv实现支持向量机对线性可分数据分类from re import Sfrom sklearn import datasetsfrom sklearn import metricsimport matplotlib.pyp

文章图片
#目标检测#python#支持向量机
DMNet复现(二)之模型篇:Density map guided object detection in aerial image

以前用Swin Transformer Tiny训练了40epoch的,官方用的Faster RCNN,这里先用Swin Transformer Tiny进行测试。

文章图片
#目标检测#人工智能#计算机视觉
大模型微调4:Alpaca模型微调、Adalora、Qlora

4. pre-train的时候加入Instruction data,接着在SFT上再使用Instruction Data。2. 通用Instruction data和私有 Instruction data混合,可以解决某些能力的遗忘。3. 收集大量的Finetune Data:一万到十万,高质量7K>一般质量30K。通用的Instruction data(适合我们场景的)7B、13B、33B、65

文章图片
#人工智能
文字区域检测数据增强(一)随机裁剪

过程由于文字标注区域可以为任意四边形,为了不把文字标注区域切分成两个区域,因此首先需要得到所有标注框的最外界坐标,如下图红色框的获取过程。然后根据红色框与图像边界的距离进一步随机生成裁剪坐标,如生成蓝色虚线框的左上角与右下角坐标。随后进行区域剪裁与Bbox调整。BBox的坐标更新,只需要将原来的BBox的值减去裁剪区域的起始坐标,如减去蓝色框的起始坐标。如下:[bbox[0][0] - crop_

文章图片
#计算机视觉#深度学习#python
使用thop库分析模型的参数量、运算量、帧率

GFLOPsFLOPs 是浮点运算次数,可以用来衡量算法/模型复杂度GFLOPs。为十亿(1e9)次的浮点运算。Latency网络前向传播的时间,1 ms=1e-3 s,10.5ms=0.0105s。FPS每秒传输帧数,FPS=1/Latency,1/0.0105=95.2。Parameters参数量,指模型含有多少参数。测试模型参数量和Flops。

文章图片
#python#开发语言
​​​​​​​【Datawhale AI夏令营】多模态RAG财报问答挑战赛:学习笔记与上分思考

本文分享了针对多模态RAG赛题的解题思路和优化策略。作者从初识赛题的迷茫出发,通过分析评审规则明确了"可溯源"的核心要求,梳理出信息转化、精准定位、忠实回答和协同优化四大难点。基于文本RAG的Baseline方案,提出三步优化路径:首先优化Prompt和分块策略;然后引入MinerU解析引擎和VLM模型实现"伪多模态";最后通过重排模型和多模态生成模型进行高

#学习
    共 31 条
  • 1
  • 2
  • 3
  • 4
  • 请选择