
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
余弦距离是大多数自然语言向量表示的相似度计算方法。(计算函数输入为词频向量)import math'''1.余弦相似度的值越接近于 1,两个向量之间的夹角就越小。对于余弦相似度接近于 1 的 NLP 文档向量,这些文档应该使用了比例相近的相似词。因此,那些表示向量彼此接近的文档很可能涉及的是同一主题。2.余弦相似度为 0 表示两个向量之间没有共享任何分量。它们是正交的,在所有维度上都互相垂直。对于
corpora基本概念:corpora是gensim中的一个基本概念,是文档集的表现形式,也是后续进一步处理的基础。从本质上来说,corpora其实是一种格式或者说约定,其实就是一个二维矩阵。在实际运行中,因为单词数量极多(上万甚至10万级别),而一篇文档的单词数是有限的,所以如果还是采用密集矩阵来表示的话,会造成极大的内存浪费,所以gensim内部是用稀疏矩阵的形式来表示的。from gensi
关键词搜索引擎:将搜索查询本身视为文档,从而获得它的基于 TF-IDF 的向量表示。然后找到与查询余弦相似度最高的向量的文档,并将这些文档作为搜索结果返回。我们的语料库由3 篇文档组成,而查询是“How long does it take to get to the store?”,如下代码所示:from collections import OrderedDictimport copyfrom
LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”。什么意思呢? 我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。下面,我们给出了 LDA 的一个简单的实现版本,模
PCA和 LDA 结合起来有助于创建一个精确的、泛化能力强的短消息分类模型,这样面对新的短消息时出错概率大幅降低:import numpy as npimport pandas as pdfrom nlpia.data.loaders import get_datafrom nltk.tokenize.casual import casual_tokenizefrom sklearn.model_
长短时记忆网络(Long Short Term Memory Network, LSTM),是一种改进之后的循环神经网络,可以解决RNN无法处理长距离的依赖的问题,目前比较流行。LSTM 通过三个“门”结构来控制不同时刻的状态和输出,分别为:遗忘门,输入门,输出门,结构图如下:遗忘门(forget gate):它决定了上一时刻的单元状态c_t-1有多少保留到当前时刻c_t输入门(input gat
GRU(Gate Recurrent Unit)是循环神经网络(Recurrent Neural Network, RNN)的一种。和LSTM(Long-Short Term Memory)一样,也是为了解决长期记忆和反向传播中的梯度等问题而提出来的。相比LSTM,使用GRU能够达到相当的效果,并且相比之下更容易进行训练,能够很大程度上提高训练效率,因此很多时候会更倾向于使用GRU,其中GRU输入
github上一个开源的简单的推荐系统,使用TensorFlow2和Python 3开发。使用文本卷积神经网络,并利用MovieLens数据集完成电影推荐的任务。 实现的推荐功能如下:1、指定用户和电影进行评分2、推荐同类型的电影3、推荐您喜欢的电影4、看过这个电影的人还看了(喜欢)哪些电影将网络模型作为回归问题进行训练,得到训练好的用户特征矩阵和电影特征矩阵进行推荐,模型结构图:源代码:impo
实施深层森林回归

通过tensorflow.layers(tf.layers)的高级API进行神经网络训练,实现一个多层感知器来分辨MNIST数据集中的手写数字import osimport sysimport structimport numpy as npimport matplotlib.pyplot as pltimport tensorflow.compat.v1 as tftf.disable_v2_b