
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
这里计算有点不同,pytorch代码的实现里只有这个双线性变换参数大小,没有“还需要1152个b参数矩阵和1152个c参数矩阵”。上述函数可以直接通过probs = torch.softmax(logits, dim=2)替换,效果是一样的。torch.softmax归一化]2 priors的计算也可以替代。两部分损失函数加权和。

http://blog.csdn.net/pipisorry/article/details/60776803单决策树C4.5由于功能太简单,并且非常容易出现过拟合的现象,于是引申出了许多变种决策树,就是将单决策树进行模型组合,形成多决策树,比较典型的就是迭代决策树GBRT和随机森林RF。在最近几年的paper上,如iccv这种重量级会议,iccv 09年的里面有不少文章都是与Boosting和随
http://blog.csdn.net/pipisorry/article/details/52208727输出格式控制pandas dataframe数据全部输出,数据太多也不用省略号表示。pd.set_option('display.max_columns',None)或者with option_context('display.max_rows', 10, 'dis...
BERT出自的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder。作为一个Word2Vec的替代者,其在NLP领域的11个方向大幅刷新了精度,可以说是近年来自残差网络最优突破性的一项技术了。模型的主要创新点都在pre-train方法上,即用了Masked LM和Next Sentence

http://blog.csdn.net/pipisorry/article/details/51788955(个性化)推荐系统构建三大方法:基于内容的推荐content-based,协同过滤collaborative filtering,隐语义模型(LFM, latent factor model)推荐。这篇博客主要讲协同过滤。协同过滤Collaborative Filtering协同过滤:使用
http://blog.csdn.net/pipisorry/article/details/76095118词嵌入词嵌入其实就是将数据的原始表示表示成模型可处理的或者是更dense的低维表示(lz)。One-hot Embedding假设一共有个物体,每个物体有自己唯一的id,那么从物体的集合到有一个trivial的嵌入,就是把它映射到中的标准基,这种嵌入叫做On...
http://blog.csdn.net/pipisorry/article/details/42649657主题模型LDA简介隐含狄利克雷分布简称LDA(Latent Dirichlet allocation),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的
Google于2017年6月发布在arxiv上的一篇文章《Attention is all you need》,提出解决sequence to sequence问题的transformer模型,用全attention的结构代替了lstm,抛弃了之前传统的encoder-decoder模型必须结合cnn或者rnn的固有模式,只用attention,可谓大道至简。文章的主要目的是在减少...

http://blog.csdn.net/pipisorry/article/details/51471222贝叶斯与频率派思想频率派思想 长久以来,人们对一件事情发生或不发生,只有固定的0和1,即要么发生,要么不发生,从来不会去考虑某件事情发生的概率有多大,不发生的概率又是多大。而且事情发生或不发生的概率虽然未知,但最起码是一个确定的值。比如如果问那时的人们一个问题:“有一个袋子,里面装着
http://blog.csdn.net/pipisorry/article/details/52098864非负矩阵分解(NMF,Non-negative matrix factorization)NMF的发展及原理 著名的科学杂志《Nature》于1999年刊登了两位科学家D.D.Lee和H.S.Seung对数学中非负矩阵研究的突出成果。该文提出了一种新的矩阵分解思想——非负矩阵分解(Non