
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
SelectFromModel(根据重要性权重选择特征)主要采用基于模型的特征选择法,常见的有基于惩罚项的特征选择法和基于树模型的特征选择法。
计算相关性是分析连续型与连续型双变量的常用方法

与训练词向量类似,可以使用 gensim 包来训练文档向量。import multiprocessing# gensim Doc2vec 模块为语料库中的每篇文档包含了词向量嵌入和文档向量from gensim.models.doc2vec import TaggedDocument, Doc2Vec# gensim的simple_preprocess 单元是一个粗分词器,会去除单字母词和所有标点
机器学习算法(1) 用Python实现Adaline(自适应线性神经元)代码import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom matplotlib.colors import ListedColormapdf = pd.read_csv('你自己的目录\\iris.data', header=None)
来自 NLTK 包的 TreebankWordTokenizer 分词器,它内置了多种常见的英语分词规则。例如,它从相邻的词条中将短语结束符号(?!.;,)分开,将包含句号的小数当成单个词条。另外,它还包含一些英文缩略语的规则,例如,“don’t”会切分成[“do”, “n’t”]。from nltk.tokenize import TreebankWordTokenizersentence =
构建一个回归分析的实例模型,目标是实现线性回归模型:y = wx + b 。import numpy as npimport matplotlib.pyplot as pltimport tensorflow.compat.v1 as tftf.disable_v2_behavior()### Building a regression model# 建立计算图## define a graphg
线性回归模型可能会受到离群值的严重影响。在某些情况下,一小部分数据可能会对估计的模型系数有很大的影响。除了淘汰离群值之外,这里利用RANSAC拟合稳健的回归模型迭代RANSAC算法如下:1.随机选择一定数量的样本作为内点来拟合模型。2.用模型测试所有其他的点,把落在用户给定容限范围内的点放入内点集。3.调整模型中使用的所有的内点。4.用内点重新拟合模型。5.评估模型预测结果与内点集相比较的误差。6
如果能够度量两个文本之间的重合度,就可以很好地估计它们所用词的相似程度,而这也是它们语义上重合度的一个很好的估计。import numpy as npimport pandas as pdsentences = """Thomas Jefferson began building Monticello at the age of 26.\n"""sentences += """Constructi
长短时记忆网络(Long Short Term Memory Network, LSTM),是一种改进之后的循环神经网络,可以解决RNN无法处理长距离的依赖的问题,目前比较流行。LSTM 通过三个“门”结构来控制不同时刻的状态和输出,分别为:遗忘门,输入门,输出门,结构图如下:遗忘门(forget gate):它决定了上一时刻的单元状态c_t-1有多少保留到当前时刻c_t输入门(input gat
奇异值分解是 LSA(潜在语义分析)即计算主题向量背后的算法。SVD 是一种可以将任何矩阵分解成 3 个因子矩阵的算法,而这 3 个因子矩阵可以相乘来重建原始矩阵。这类似于为一个大整数找到恰好 3 个整数因子,但是这里的因子不是标量整数,而是具有特殊性质的二维实矩阵。通过 SVD 计算出的 3 个因子矩阵具有一些有用的数学性质,这些性质可以用于降维和 LSA。用代码来实现SVD的矩阵分解:from







