logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Conformer:用于语音识别的卷积增强Transformer

Transformer模型善于捕捉基于内容的全局交互,而CNN则能有效地利用局部特征。在这项工作中,通过研究如何将卷积神经网络和Transformer结合起来,以参数有效的方式对音频序列的局部和全局依赖关系进行建模,从而达到两全面性。为此,提出了用于语音识别的卷积增强Transformer,命名为Conformer。Conformer显著优于之前的Transformer和基于CNN的模型,达到了最

文章图片
#语音识别#transformer#人工智能
6.26.8 基于多视角深度卷积神经网络的高分辨率乳腺癌筛查

开发了一种新的DCN,它能够处理乳房x线摄影筛查的多个视图,并利用大分辨率图像而不缩小。将这种DCN称为多视图深度卷积网络(MV-DCN)。网络学习预测放射科医生的评估,将传入的样本分类为BI-RADS 0(“不完整”),BI-RADS 1(“正常”)或BI-RADS 2(“良性发现”)。研究了数据集大小和图像分辨率对所提出的MV-DCN筛选性能的影响,这将作为优化未来深度神经网络用于医学成像的事

文章图片
#cnn#人工智能#神经网络
6.7.29 基于卷积神经网络的乳腺良恶性图像分类

本研究提出了一种基于 mini-MIAS 训练的 CNN 形式的新型深度学习模型,用于对良性和恶性异常进行分类。为了增强图像特征并提高分类性能,提出了一种预处理算法,该算法使用一系列预处理方法,例如裁剪、GCN、局部直方图均衡化和平衡预处理。CNN 模型以原始图像的 ROI 作为输入,实现异常的特征学习和分类。为了满足乳腺图像的要求,提出了一种数据增强方法来改善数据稀缺性并防止过度拟合。探索 CN

文章图片
#cnn#分类#人工智能
5.23.2 深度学习提高乳房 X 光检查中乳腺癌的检测率

开发了一种深度学习算法,该算法可以使用“端到端”训练方法在筛查乳房 X 光检查中准确检测出乳腺癌,该方法有效地利用了具有完整临床注释或仅具有整个图像的癌症 标签 的训练数据集。在这种方法中,仅在初始训练阶段才需要病变注释,后续阶段只需要图像级标签,从而消除了对很少可用的病变注释的依赖。与以前的方法相比,我们用于对筛查乳房 X 光检查进行分类的全卷积网络方法获得了出色的性能。作为图像分类任务,通过筛

文章图片
#深度学习#人工智能
5.14.1 使用超声图像进行乳房肿块数据增强和分类的深度学习方法

医学成像是诊断多种疾病和分析实验结果的重要工具。生物医学成像是整体癌症护理基础的一部分。数字乳腺X线摄影Digital Mammography(DM)是乳腺癌诊断中最常用和最实用的技术。DM 成像在致密乳房中存在一些弱点,其中肿瘤可能被周围组织隐藏(致密组织与肿瘤相比具有类似的衰减)。在实践中,超声 (US) 成像是 DM 的最佳替代方法,由于其敏感性、安全性和多功能性,它被用作乳腺癌分类和检测的

文章图片
#深度学习#人工智能
使用深度学习集成模型进行乳腺癌组织病理学图像分类

基于预训练的VGG16和VGG19架构训练了四种不同的模型(即完全训练的 VGG16、微调的 VGG16、完全训练的 VGG19 和微调的 VGG19 模型最初,我们对所有单独的模型进行了5倍交叉验证操作。然后,我们采用集成策略,取预测概率的平均值,发现微调的 VGG16 和微调的 VGG19 的集成表现出有竞争力的分类性能,尤其是在癌症类别上。

文章图片
#深度学习#分类#人工智能
动手学深度学习PyTorch版

PyTorch版深度学习中基本的数据操作和数据的预处理操作

文章图片
#深度学习#pytorch#人工智能
Conformer:用于语音识别的卷积增强Transformer

Transformer模型善于捕捉基于内容的全局交互,而CNN则能有效地利用局部特征。在这项工作中,通过研究如何将卷积神经网络和Transformer结合起来,以参数有效的方式对音频序列的局部和全局依赖关系进行建模,从而达到两全面性。为此,提出了用于语音识别的卷积增强Transformer,命名为Conformer。Conformer显著优于之前的Transformer和基于CNN的模型,达到了最

文章图片
#语音识别#transformer#人工智能
6.7.11 一种新的迁移学习方法可提高乳房 X 线摄影筛查中乳腺癌的诊断率

分割过程是涉及要分析图像的任何基于机器学习的工作中的一个有效阶段。在工作中,使用两个 CNN 预训练模型,即 ResNet-50 和 VGG16,用于从乳房 X 线摄影图像中获取属性。VGG16 充当二分类和多类乳房 X 线摄影图像的特征提取器。此过程是在适当调整 VGG16 模型后完成的。另一方面,ResNet-50 用于图像分类、对象检测和对象定位等功能。使用前面提到的模型开发的系统提供了 R

文章图片
#迁移学习#人工智能#机器学习
视觉Transformer和Swin Transformer

ViT的基本结构:①输入图片首先被切分为固定尺寸的切片;②对展平的切片进行线性映射(通过矩阵乘法对维度进行变换);③为了保留切片的位置信息,在切片送入Transformer编码器之前,对每个切片加入位置编码信息;④Transformer编码器由L个Transformer模块组成,每个模块由层归一化(LN)、多头自注意力模块(MHSA)、多层感知机(MLP)及残差连接等构成;多层感知机(MLP)其中

文章图片
#transformer#深度学习#人工智能
    共 13 条
  • 1
  • 2
  • 请选择