sliderSun 个人主页

@weixin_37947156

sliderSun

2022-07-08 17:01:54 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

由于在自然语言处理任务中的突出表现，基于 Transformer 的预训练语言模型是 NLP 领域的研究重点。考虑到模型参数量过大，导致其训练困难，部署不方便，研究人员一直在探究压缩模型的方法。近日，天津大学联合微软亚洲研究院提出了 Transformer 的压缩方法，不仅减少了近一半的参数量，模型在语言建模和神经机器翻译任务的表现也有所提升。这一研究可帮助在一些算力资源较小的环境中部署预训...

深度学习之文本相似度Paper总结

Tree-based CNN encoders注意这里红框内的拼接部分，除了对pp和hh做简单的拼接之外，还做了p−hp−h，p⋅hp⋅h的操作，作者给出的解释是：The latter two are certain measures of “similarity” or “closeness.”于是最后拼接起来的向量为m=[p;h;p−h;p⋅h]m=[p;h;...

基于Attention机制的上下文分类算法在问答系统中的应用

文本分类是自然语言处理中的基础算法，在对话系统的应用中，可利用文本分类算法来判断用户的咨询意图。然而单个问题并不能很好捕获用户的意图，通常需要结合用户上文的咨询结合当句才能更好的判断用户的意图。这里就需要我们建立一个基于上下文的分类模型来结合上文信息判断用户的最终意图。这里常用的方式大概分为两个方式：&nbsp; &nbsp; &nbsp; &amp

解读ALBERT

论文地址：https://openreview.net/pdf?id=H1eA7AEtvS中文预训练ALBERT模型：https://github.com/brightmart/albert_zh曾经，预训练是大模型（玩家）的天下语言表征学习领域的这些进展表明，大模型对于实现 SOTA 性能表现极其重要。预训练大模型，并在实际应用中将它们提炼成更小的模型已经成为一种常见的做法。考虑...

transformer中的attention为什么scaled?

《Attention Is All You Need》中解释是：向量的点积结果会很大，将softmax函数push到梯度很小的区域，scaled会缓解这种现象。怎么理解将sotfmax函数push到梯度很小区域？还有为什么scaled是维度的根号，不是其他的数？Google的一般化Attention思路也是一个编码序列的方案，因此我们也可以认为它跟RNN、CNN一样，都是一个序列编码的层。...

学习DGCNN《Dilate Gated Convolutional Neural Network》记录

模型介绍DGCNN，全名为Dilate Gated Convolutional Neural Network，即“膨胀门卷积神经网络”，顾名思义，融合了两个比较新的卷积用法：膨胀卷积、门卷积，并增加了一些人工特征和trick，最终使得模型在轻、快的基础上达到最佳的效果。模型结构特点：门机制：模型中采用的卷积结构，来自FaceBook的《Convolutional Se...

新的深度学习优化器Ranger: RAdam + LookAhead的协同组合，两者兼得。

Rectified Adam（RAdam）新的state of the art优化器：Rectified Adam（RAdam），相比adam，可以稳定提高准确率，关键是，真的有用。Liu, Jian, He等人的一篇新论文介绍了RAdam，也叫作“Rectified Adam”。这是经典Adam优化器的一个新变种，在自动的、动态的调整自适应学习率的基础上，他们详细研究了训练期间的变化和动...

探究Transformer中PostNorm/PreNorm/Initialization/LearningRate之间的关系

论文：On Layer Normalization in the Transformer Architecture推荐说明：我们知道，在原始的Transformer中，Layer Norm在跟在Residual之后的，我们把这个称为Post-LN Transformer；而且...

IDCNN-CRF命名实体识别

对于序列标注来讲，普通CNN有一个不足，就是卷积之后，末层神经元可能只是得到了原始输入数据中一小块的信息。而对NER来讲，整个输入句子中每个字都有可能对当前位置的标注产生影响，即所谓的长距离依赖问题。为了覆盖到全部的输入信息就需要加入更多的卷积层，导致层数越来越深，参数越来越多。而为了防止过拟合又要加入更多的Dropout之类的正则化，带来更多的超参数，整个模型变得庞大且难以训练。因为CNN这样的

XLNet原理解读

论文地址：https://arxiv.org/pdf/1906.08237.pdf预训练模型及代码地址：https://github.com/zihangdai/xlnet论文原理：（张俊林老师--讲的比较透彻）XLNet:运行机制及和Bert的异同比较https://zhuanlan.zhihu.com/p/70257427摘要作者表示，BERT ...

共 19 条

请选择