
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文是我对图算法的一个归纳总结,学习过程按照以下博文顺序,持续更新中[什么是图][谱聚类]Random Walk节点分类图神经网络[图卷积神经网络][图注意力网络]
Spectral Graph Theory首先我们定义一下几个符号图 G=(V,E),N=∣V∣G=(V,E),N=|V|G=(V,E),N=∣V∣邻接矩阵 A∈RN×NA \in R^{N×N}A∈RN×N度矩阵D∈RN×ND \in R^{N×N}D∈RN×N节点的信号 f:V→RNf:V \to R^Nf:V→RN 其中fif_ifi表示的是iii节点的信号拉普拉斯矩阵 L=D−AL=D-
MotivationTransformer最大的问题在于没有办法建模超过最大长度的序列,例如base bert其支持的序列最大长度是512,超过了该长度的序列需要进行截取,再把截取后的片段分别用bert进行编码,该方法虽然可行,但是存在上下文碎片化的问题,也就是说每个片段是单独建模的,互相之间没有上下文信息,并且,不同的片段位置编码都是从0开始,明显是有问题的。可见Transformer对于较长的
keras最优雅的地方还是在于其fit函数,自动验证,灵活的callback,batch_size、epochs的简单设置,相比于tensorflow需要自己编写验证代码,自己编写循环模块来实现多个epoch的训练,可谓是简单了太多。那么fit函数到底做了些什么呢,本文将会带领大家一起探讨其中的原理。代码分析首先,fit函数会对batch_size进行一个验证,这里调用了另外一个函数batc...
文本检索,NLP中的经典问题,其应用场景十分丰富,搜索引擎、智能问答等等。传统的文本检索大部分都是基于统计学的BM25算法,包括ES也是基于BM25的改进,该方案最大的优势在于实现简单,检索速度快,但BM25只考虑了词权,导致检索出来的结果在语义方面有所欠缺。随着业务的发展,老版本基于ES的文本检索能力已经无法满足业务方的需求,更合理的检索结果也能帮助业务方提高解决问题的效率,因此我们需要一套更加
转载请注明出处,原文地址简介Attention Is All You Need是一篇Google提出的将Attention思想发挥到极致的论文。这篇论文中提出一个全新的模型,叫 Transformer,抛弃了以往深度学习任务里面使用到的 CNN 和 RNN ,目前大热的Bert就是基于Transformer构建的,这个模型广泛应用于NLP领域,例如机器翻译,问答系统,文本摘要和语音识别等等方向..
文本检索,NLP中的经典问题,其应用场景十分丰富,搜索引擎、智能问答等等。传统的文本检索大部分都是基于统计学的BM25算法,包括ES也是基于BM25的改进,该方案最大的优势在于实现简单,检索速度快,但BM25只考虑了词权,导致检索出来的结果在语义方面有所欠缺。随着业务的发展,老版本基于ES的文本检索能力已经无法满足业务方的需求,更合理的检索结果也能帮助业务方提高解决问题的效率,因此我们需要一套更加
在真实的工业场景中,通常都会遇到长尾问题(部分类别数据很多,部分类别数据量极少,如下图所示)。例如比较典型的风控场景,负样本通常都是极少的,甚至有些负样本需要人工造。对于这样的场景,模型对于样本较少的类别拟合能力是不足的,甚至无法满足上线的要求。目前比较通用的解决方案即采样和加权,但是如何采样,是欠采样还是过采样,如何加权权重怎么设置,这些都包含了较多的方法。本文将会先从这两个方案出发,再扩展到一
1、从一副52张扑克牌中随机抽两张,颜色相等的概率2C262C522\frac{2 C_{26}^2}{C_{52}^2}C5222C2622、54张牌,分成6份,每份9张牌,大小王在一起的概率C61C527C549\frac{C_{6}^1C_{52}^7}{C_{54}^9}C549C61C5273、52张牌去掉大小王,分成26*2两堆,从其中一堆取4张牌为4个a的概率2C482
前言说到PCA你是不是第一时间想到的是对协方差矩阵做特征值分解,但是为什么这么做呢?之前看过的大部分PCA博文也都是只简单介绍了PCA的流程,对其中的推导过程与原理并没有详细介绍,这篇文章的目的是从数学的角度,手推PCA每一个步骤,帮助读者了解PCA的工作机制是什么。文中的某些数学公式,可能会对某些读者产生不适,我会尽可能的用白话把其中原理讲解的通俗易懂。PCA简介PCA(Prin......
