logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

使用pyspark进行机器学习(分类问题)

LogisticRegressionclass pyspark.ml.classification.LogisticRegression(self, featuresCol="features", labelCol="label", predictionCol="prediction", maxIter=100, regParam=0.0, elasticNetParam=0.0, tol=1e-

文章图片
#机器学习#分类
word2vec以及GloVe总结

词向量词向量,顾名思义,就是把一个单词或词语表示成一个向量的形式,这是因为在计算机中无法直接处理自然语言,需要把它转化为机器能够理解的语言,比如数值等。最简单的方式是把一个个单词表示成one-hot的形式。例如有三个句子:我/喜欢/小狗/喜欢/喝咖啡我/不喜欢/喝咖啡你/喜欢/什么/东西词汇表为:我、你、喜欢、不喜欢、小狗、喝咖啡、什么、东西然后对每一个词做one-hot编码:“我”就是[1

文章图片
#word2vec
K-Prototypes聚类的Python实现

k-prototypes聚类前一篇讲述了K-Prototypes聚类的原理以及它的伪代码,本篇根据上一篇内容编写了实现K-Prototypes的Python代码。# -*- coding: utf-8 -*-import numpy as npimport randomfrom collections import Counterdef dist(x, y):retu...

文章图片
#聚类
XGBoost算法原理及其实现

目标函数Obj(θ)=L(θ)+Ω(θ)Obj(\theta)=L(\theta)+\Omega(\theta)其中,L(θ)L(\theta)表示模型拟合训练数据的程度,Ω(θ)\Omega(\theta)是正则化项,用来表示模型的复杂程度。一般,训练集的损失函数记为:L=Σni=1l(yi,yi^)L=\Sigma_{i=1}^nl(y_i,\hat{y_i})- 平方损失函数:l(

文章图片
#机器学习
离群点检验方法

离群点离群点(outlier)是一个数据对象,它显著不同于其他数据对象,好像它是被不同的机制产生一样。离群点检验就是找出其行为很不同于预期对象的过程。应用:信用卡欺诈离群点类型离群点类型:全局离群点给定数据集中,如果它显著偏离数据集中的其余对象,则成为全局离群点。情景离群点在给定数据集中,如果关于对象的特定情境,它显著偏离其他对象,则称为情景离群点。集体离群点在给定数据集中,如果这些对象

文章图片
#机器学习
噪音对比估计(NCE)

噪音对比估计(NCE, Noise Contrastive Estimation)是一种新的统计模型估计方法,由Gutmann和Hyv¨arinen提出来,能够用来解决神经网络的复杂计算问题,因此在图像处理和自然语言处理中得到广泛应用。在介绍NCE之前,首先复习一些基础知识。全概率公式设实验E" role="presentation" style="position: relative

文章图片
#自然语言处理
模拟退火算法

模拟退火算法(simulated annealing,SA)是一种概率算法,用来在一个大的搜索空间内找到命题的最优解。模拟退火是来自冶金学的专有名词退火。退火是将材料加热后再经冷却,使得增大晶粒的体积,并减少晶格的缺陷。模拟退火的思想模拟退火是一种贪心算法,但在搜索过程中加入了随机因素,即在一定的概率下接受一个比当前解要差的解,这样就可能跳出局部最优解,可以证明,模拟退火以概率达到全局最优解。模

文章图片
k-prototypes聚类

聚类有多种方法,常见的有k-means,DBSCAN,分层聚类等,但这些都是处理数值型数据的,而k-modes只是处理分类变量数据,但更多的数据是既含有数值型数据也含有分类数据,因此需要有一种能同时处理两种不同类型数据的聚类方法,而k-prototypes就是这样的一种方法。损失函数k-prototypes聚类的准则就是使用一个合适的损失函数去度量数值型和分类变量对原型的距离。假设X={X...

文章图片
#聚类
神经网络机器翻译总结

神经网络机器翻译(Neural Machine Translation, NMT)是最近几年提出来的一种机器翻译方法。相比于传统的统计机器翻译(SMT)而言,NMT能够训练一张能够从一个序列映射到另一个序列的神经网络,输出的可以是一个变长的序列,这在翻译、对话和文字概括方面能够获得非常好的表现。NMT其实是一个encoder-decoder系统,encoder把源语言序列进行编码,并提取源语言中信

文章图片
#自然语言处理
特征选择之relief及reliefF算法

relief算法Relief算法最早由Kira提出,最初局限于两类数据的分类问题。Relief算法是一种特征权重算法(Feature weighting algorithms),根据各个特征和类别的相关性赋予特征不同的权重,权重小于某个阈值的特征将被移除。Relief算法中特征和类别的相关性是基于特征对近距离样本的区分能力。算法从训练集D中随机选择一个样本R,然后从和R同类的样本中寻找最近邻样本H

文章图片
    共 19 条
  • 1
  • 2
  • 请选择