logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

深度学习之Reformer

文章目录1. 局部敏感哈希2. 可逆层3. ChunkTransformer无法处理比较长的序列数据(通常是500左右的长度),而且十分消耗GPU资源。Reformer可以处理的序列长度可以高达64k,GPU资源消耗也降低了很多。Reformer的重点部分在于:Locality sensitive hash attention(局部敏感哈希注意力):空间换时间Reversible layers(可

#深度学习
机器学习之逻辑回归(Logistic Regression)

逻辑回归一、逻辑回归理论概述二、sklearn逻辑回归的使用1. 正则化参数2. 特征工程:embedded3. 梯度下降:重要参数max_iter4. 二元回归和多元回归重要参数:solver和multi-class5. 样本不平衡与参数class_weight三、案例:用逻辑回归制作评分卡1. 数据预处理1.1 处理缺失值1.2 处理异常值1.3 样本不均衡问题1.4 训练集和测试集的划分2.

#python#机器学习#数据分析 +1
自然语言处理(NLP)(三)模型篇之传统模型和RNN模型

文章目录1.基础模型1.1传统模型(HMM和CRF)1.2 传统RNN模型2. 改进的RNN模型1.基础模型1.1传统模型(HMM和CRF)隐马尔可夫模型(Hidden Markov Model),隐马尔可夫模型,一般以文本序列数据为输入,以该序列对应的隐含序列为输出。CRF(Conditional Random Fields)模型,称为条件随机场,一般也以文本序列数据为输入,以该序列对应的隐含序

#深度学习#nlp
【论文阅读】基于深度学习的时序预测——Pyraformer

本文是上海交通大学的团队发表的,背景仍然是如何降低计算复杂度&更好地进行长期依赖性关系的表征。

文章图片
#论文阅读#深度学习#人工智能
深度学习与人类语言处理学习笔记(二)—— 变声(理论篇)

文章目录1. Voice Conversion1.1 Feature Disentangle1.1.1 Pre-training Encoders1.1.2 Adversarial Training1.1.3 Network Design1.1.4 2nd Stage Training1.2 Direct Transformation1.2.1 Cycle GAN1.2.2 StarGAN1.2.

#语音识别#深度学习#人工智能
机器学习数据分析之异常值检测

文章目录1.基于统计学的单变量异常值检验1.1 3σ\sigmaσ准则1.2 箱型图1.3 Grubbs检验1.4 ESD检验1.5 Dixon检验2. 时间序列数据的异常值检验2.1 ADTK python模块在检查异常值之前,可以将缺失值填充好。异常值检验可以分为单变量异常值检验和多变量异常值检验,对于时间序列数据而言还有趋势预测的时间序列异常值检验。1.基于统计学的单变量异常值检验可以先采用

#python
深度学习与人类语言处理学习笔记(三)—— 语音分离(理论篇)

文章目录Speech Separation1. Evaluation1.1 Signal-to-noise ratio(SNR)1.2 Scale invariantsignal-to-distortion ratio(SI-SDR)2. Deep Clustering2.1 Masking3. Permutation Invariant Triaining(PIT)4. TasNet - Tim

#深度学习#自然语言处理#神经网络
自然语言处理(NLP)(二)实战篇之新闻主题分类任务

文章目录1. 构建带有Embedding层的文本分类模型数据包含内容如下:数据准备:import torchimport torchtextfrom torchtext.datasets import text_classificationimport os# 指定数据集下载路径load_data_path = "./data"if not os.path.isdir(load_data_path

#深度学习#python#神经网络
【论文阅读】Scaling Laws for Neural Language Models(2020)- 大模型预训练参数量、数据集大小、计算资源之间的关系验证

大模型效果最大程度的依赖于模型规模的大小,模型的规模指的就是NNNDDDCCC共同确定的,在以上规模达到一定的标准后,模型的超参数如宽度和深度对模型效果的影响较为微弱;大模型效果与NNNDDDCCC三个参数都有着独立的power-law关系;同时增加NNNDDD必然会带来大模型效果的提升,但是如果只提升其中一个变量,就会导致过拟合,性能会发生损失,性能损失的比例为N0.74DN^{0.74}/DN

文章图片
#论文阅读#语言模型#人工智能
    共 45 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择