logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

[Knowledge Distillation]论文分析:Distilling the Knowledge in a Neural Network

使用一系列模型预测概率的平均值即软投票机制能显著改善模型的性能,但是部署起来是比较不方便的:因为要预测很多的模型结果,再求平均;论文中提到可以把所有模型预测结果的平均值部署在一个模型里面,然后利用这一个模型来预测,这样就可以大大减少部署的难度,这种方法被称为,即知识蒸馏;在知识蒸馏中,我们不需要关心参数数量和大小的变化,我们只需要关心经过这一系列的参数得到的结果变化,如果参数变少,一般来说100%

文章图片
#深度学习#人工智能#机器学习 +1
[XLNet]论文解读:XLNet:Generalized Autoregressive Pretraining for Language Understanding

XLNet主要就是两个东西,一个是Permutation Language Modeling,一个是transformer-xl;感觉性能相对于roberta也没提升多少,这个模型的架构应该是不太行;

文章图片
#xlnet#人工智能#bert
[BPE]论文实现:Neural Machine Translation of Rare Words with Subword Units

使用subwords而不是word,可以有效的提高NMT的能力;利用压缩算法BPE来构建词汇表;

文章图片
#机器翻译#自然语言处理
[DistilBERT]论文实现:DistilBERT:a distilled version of BERT: smaller, faster, cheaper and lighter

这篇论文引入了一种结合语言建模,蒸馏,余弦距离损失的三重损失,利用该损失在预训练阶段使用知识蒸馏,可以减少模型的大小,保持的能力,同时加快的速度;虽然说和类的模型在处理任务时带来了极大的改进;但是NLP领域出现了一种现象,就是在模型越大的时候,模型的效果就越好,我估计这也是大厂疯狂卷算力的原因吧;

文章图片
#python#tensorflow#bert
[Longformer]论文实现:Longformer: The Long-Document Transformer

论文中提出了三种模型,一种是类似于`BERT`,利用滑动窗口注意和全局注意处理长文本序列;一种类似于`GPT`,利用膨胀滑动窗口注意抓取上下文获取长文本序列;一种是 `Longformer-Encoder-Decoder(LED)`,利用类似于`BERT`的机制做`encoder`,利用全注意力机制做`decoder`的`seq2seq`架构,在`arXiv`上超过了`bigbird`取得了`SO

文章图片
#transformer#深度学习#人工智能
[FNet]论文实现:FNet:Mixing Tokens with Fourier Transform

transformer encode架构可以通过很多种方式进行加速,毫无例外的都是对attention mechanism 进行处理,通过把平方项的复杂度缩小到线性项的复杂度;FNet没有用什么former后缀就表明,FNet并不是传统意义上transformer架构的优化,并不是在attention mechanism的优化;这里一个替换,利用线性的傅里叶变化替换掉注意力机制,在处理长文本的时候

文章图片
#python#transformer#深度学习 +1
[Linformer]论文实现:Linformer: Self-Attention with Linear Complexity

这是一篇介绍的优化模型的论文,其对普通的模型进行了优化,把时间复杂度和空间复杂度都从O(n^2)降低为了O(n);论文推出的模型叫Linformer,其主要思想利用到了两个思想,JL和SVD

文章图片
#transformer#深度学习#人工智能
数据结构可视化 Graphviz在Python中的使用 [树的可视化]

数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。但是,这并不就意味着数据可视化就一定因为要实现其功能用途而令人感到枯燥乏味,或者是为了看上去绚丽多彩而显得极端复杂。为了有效地传达思想概念,美学形式与功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察。然而,设计人员往往并不能很好地把握设计与功能之间的平衡,从而创造出华而不实的数据可视化形式

文章图片
#数据结构#python
    共 14 条
  • 1
  • 2
  • 请选择