logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

KNN算法(一)

前言:什么是KNN算法KNN 全称K-nearst neighbors,K近邻算法,是一种典型的监督学习算法。通俗地讲,K近邻算法实际上是将待预测的样本置入到数据集中(对于这个数据集的说明详见后文),然后通过用与它最靠近的K个样本来代表待预测的样本。记得看过一个论点:一个人的收入,可以通过用与他经常交往的五个人收入的平均数来确定。也就是所谓物以类聚,人以群分;近朱者赤,近墨者黑。KNN算法...

朴素贝叶斯分类模型(一)

目录前言一、简述贝叶斯定理二、贝叶斯定理的推导三、贝叶斯定理的例子说明四、朴素贝叶斯分类器总结前言什么是分类算法通俗地讲分类算法就是把大量已知特征及类别的样本对象输入计算机,让计算机根据这些已知的类别与特征归纳出类别与特征之间的规律(准确地说应该是分类模型),最终目的是运用得到的分类模型对新输入的对象(该对象已知特征,类别是不知道的)判断出该对象所属...

SmartBi 单点登录的实现

SmartBi 单点登录的实现准备Smartbi服务器加载LoginToken扩展包下载路径:http://wiki.smartbi.com.cn/download/attachments/27001766/logintoken.ext?version=3&modificationDate=1498640793000&api=v2修改SmartBi 的配置登录到 Smartbi 配置管理页面,地

HDP之离线安装ambari-agent

一、首先是离线安装Ambari见下文:离线安装Ambari以及Ambari本地源的制作二、HDP本地源的制作本地源的准备HDP 、HDP-UTILS 源包(文件很大,需要很长下载时间,请耐心等待。。。),下载路径如下:http://public-repo-1.hortonworks.com/HDP/centos6/2.x/updates/2.5.3.0/HDP-2.5.3.0-centos6

#集群
Spark伪分布式安装(一)

笔者是在已安装好的伪分布式Hadoop环境下安装的Spark。虚拟机环境为:centos7。Hadoop版本号为:[centosm@centosm spark]$ hadoop versionHadoop 2.7.2一、Spark伪分布式安装1、确定hadoop环境已安装好2、下载sparkhttp://spark.apache.org/downloads.html3、解压spa

#spark
Hive 整合Hbase(hbase.TableNotFoundException)

由于数据需要经常改动,所以将数据存储在Hbase中,通过Hive关联Hbase表的方式来对Hbase进行查询操作。原先我是在本地通过虚拟机搭建的伪分布式,因此做Hive关联Hbase操作时需要做不少的操作,比如将Hbase相关的jar添加到Hive,将Hbase配置文件添加到hadoop/conf目录下等。具体操作可见如下文章:http://blog.csdn.net/u013850277/

#hbase#hive
机器学习概述

什么是机器学习通俗地讲机器学习是:将大量数据输入计算机,计算机对这些数据进行分析,并总结出这些数据之间的关系或者数据包含的规律;最后通过上一步总结出来的规律对新输入的数据进行预测。通常说的机器学习主要分为监督学习与非监督学习,当然还有处于监督与非监督之间的比如半监督学习。举个机器学习的例子:监督学习的例子非监督学习的例子监督学习与非监督学习的区别:最本质的区别是监督学...

到底了