
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Pix2Pix是一种用于图像到图像转换的深度学习模型,基于条件生成对抗网络(cGAN),能够将一种图像类型转换为另一种图像类型,可以实现语义/标签到真实图片、灰度图到彩色图、航空图到地图、白天到黑夜、线稿图到实物图的转换。同样使用生成器和判别器模型,使用成对出现的图片进行训练,例如黑白和彩色图片。

使用RELU6激活函数优点是让值固定到0到6之间减少了大数的计算,提高了模型计算的运行效率,让模型更加稀疏。MobileNetV2首先使用1x1卷积升维然后使用3x3DepthWise卷积最后使用1x1卷积再降维。

knn(K近邻算法)既可用于分类也可用于回归算法。

Diffusion模型是通过向原始数据中逐步添加噪声,然后学习一个逆过程来从噪声中恢复数据。包括两个主要过程:前向扩散过程和反向扩散过程。前向扩散过程是将数据逐步转换为噪声的过程,而反向扩散过程则是从噪声中逐步恢复数据的过程.

通过将大图片切割成一块块小图片并使用类似词向量的处理方式可以更好的提取每个小图片的信息,不需要卷积操作因此提高了模型的计算效率,可以通过大图片数据集来进行模型预训练提升准确率。Vit是使用Transformer架构来解决图片识别的问题。

ResNet提出了残差网络,可以轻松搭建超过1000层的神经网络,使模型越深准确率有所提升。在没提出ResNet模型之前,传统深度模型随着模型的加深 准确率降低 误差更大。ResNet50预训练模型默认输出是1000分类。需要指定最后一层全连接输出为10。

分组后的顺序是rrggbb 各个通道之间的信息无法有效共享 可以通过把输出的通道变成 m x n 的矩阵,转置成 n x m 的矩阵再拉伸成1行的通道排列,增加了各个通道的信息共享。每个分组只计算部分特征,会让总计算的参数量有所降低,输出的通道数还是等于卷积核数量。ShuffleNetV1模型通过分组卷积是卷积的数量成为原来的。例如 RGB图片 可以拆分为3组每组只处理对应的通道。

1. 用户输入的文本描述作为输入传递给一个固定的文本编码器模型,以获得一系列隐形状态表示。3. 对这些音频token使用音频压缩模型(如EnCodec)进行解码,以恢复音频波形。2. 训练MusicGen解码器来预测离散的隐形状态音频token。

DCGAN通过结合卷积神经网络(CNN)和生成对抗网络(GAN)的原理,实现了对图像的高效处理。DCGAN会分别在判别器和生成器中使用卷积和转置卷积层。

SSD目标检测通过在多个特征图上执行预测来实现多尺度特征映射,从而有效地检测不同大小的物体。








