logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据进阶之协同过滤推荐算法——SparkML ALS交替最小二乘法

算法介绍:ALS是交替最小二乘法的简称,ALS特指使用交替最小二乘求解的一个协同过滤的推荐算法。通过观察用户对购买商品的评价,来推断每个用户的喜好并向用户推荐合适的商品。案例解析:西游记水浒传红楼梦三国演义简爱用户13748用户225用户36用户4741上表所描述的是一个用户对几本名著的一个评分结果。近似的可以理解成为一个矩阵。在现实的生产环境中,矩阵的行和列都会非常大,ALS的基本思想就是将一个

#机器学习#算法
大数据项目实战——Flume->Kafka->SparkStreaming->Kafka

项目基本需求:利用Flume监控文件,将文件读取到Kafka中,再从Kafka中读入到SparkStreaming,在SparkStreaming中经过简单的处理后再写入到Kafka中。原数据格式数据为用户的朋友关系,一个用户对应很多个朋友,大概有几十万的数据,有需要数据的可以联系我。Flume监控文件读入到Kafka中a6.sources=s6a6.channels=c6a6.sinks=k6a

#大数据#flume#spark +1
大数据基础之Scala——Scala数组方法,史上最全,只要你能全部背上即可成为万人敬仰的大佬,任何Scala随便戳戳!!!

Scala数组数组是一种可变的、可索引的数据集合。在Scala中用Array[T]的形式来表示java中的数组形式T[ ]。//声明一个数组对象方法一:var numbers:[String]=new Array[String](3)方法二:val numbers = Array(1, 2, 3, 4)val first = numbers(0)// 读取第一个元素numbers(3) = 100

大数据基础之Python——Python的Sublime Text3安装和实用插件推荐

首先安装Python解析环境,类似JVM软件资源获取https://pan.baidu.com/s/1pjeX7m-qKpQEv9gySN7A-Q提取码:1i5t下载到Windows环境后直接无脑下一步安装即可。安装Sublime Text3(编辑Python程序的软件)软件资源获取https://pan.baidu.com/s/1Nwy8Pb-R4JwwJQBwiZZk1Q提取码:17yl下载到

#python#开发工具
大数据进阶之算法——Spark ML库VectorAssemble详解

VectorAssemble是将给定列列表组合成单个向量列的转换器。为了训练逻辑回归和决策树等ML模型,将原始的多个特征列组合成一个特征向量是很有用的。VectorAssemble将接受一下的输入列类型:所有数值类型、布尔类型和向量类型。在每一行中,输入列的值将按照指定的顺序连接到一个向量中。示例:以下是我的一些项目模拟数据原始数据集:处理后的数据集:VecotrAssemble代码实现://nu

#机器学习#深度学习#人工智能
大数据基础之SparkStreaming——SparkStreaming整合Flume

Spark Streaming继承Flume  Spark Streaming通过Push和Pull两种方式对接Flume数据源。以Spark Streaming的角度来看,Push方式属于推送(由Flume向Spark推送),而Pull属于拉取(Spark拉取Flume的输出)。  不论以何种方式,开发过程类似,都是由 Spark Streaming 对接 Flume 数据流,Flume 做为

#spark#flume
大数据基础之SparkGraphX——SparkGraphX基本简介及寻找网络红人项目实战分析

图(Graph)的基本概念图是有顶点集合(vertex)及顶点之间的关系结合(边egde)组成的一种网状数据结构  - 通常表示为二元祖:Graph=(V,E)  - 可以对事物之间的关系建模应用场景  - 在地图应用中寻找最短路径  - 社交网络关系  - 网页间超链接关系顶点(Vertex)边(Edge)//顶点集合V={v1,v2,v3}//边集合E={(v1,v2),(v2,v3),(v1

#spark#大数据
大数据基础之Python——Numpy框架详解

Numpy 入门Numpy安装首先更改pip的国内镜像源,因为国外的源下载东西他太慢了Windows环境下:在user用户目录下创建一个名为pip的文件夹在文件夹内创建一个名为pip的文本文件(创建完成后将“.txt”改为".ini")将以下代码拷贝到文件里[global]index-url = https://pypi.tuna.tsinghua.edu.cn/simple[install]tr

#python#numpy
大数据进阶——在VBox上安装Hortonworks Docker Sandbox HDP集成环境

首先去官网下载HDP,大概12个g左右,我这里就不提供了,百度云盘上传不上去。官网链接:http://hortonworks.com/products/hortonworks-sandbox/#install如果官网不太好下载的话就私信我跟我要1.将下载好的镜像通过VirtualBox导入,导启动的过程很漫长很漫长,静静的等待吧首先选择自己下载的镜像文件,然后根据自己电脑的情况设置自己的HDP配置

#docker
大数据进阶——在VBox上安装Hortonworks Docker Sandbox HDP集成环境

首先去官网下载HDP,大概12个g左右,我这里就不提供了,百度云盘上传不上去。官网链接:http://hortonworks.com/products/hortonworks-sandbox/#install如果官网不太好下载的话就私信我跟我要1.将下载好的镜像通过VirtualBox导入,导启动的过程很漫长很漫长,静静的等待吧首先选择自己下载的镜像文件,然后根据自己电脑的情况设置自己的HDP配置

#docker
    共 20 条
  • 1
  • 2
  • 请选择