
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
Spark大数据-基于Hive和Spark的淘宝双11数据分析与预测
基于Hive和Spark的淘宝双11数据分析与预测1.系统和环境要求(版本仅供参考):Linux: centos7MySQL: 5.7.16Hadoop: 2.7.1Hive: 1.2.1Sqoop: 1.4.6Spark: 2.1.0Eclipse: 3.8ECharts: 3.4.02.数据上传到Hive(Hive的安装配置)2.1数据集格式内容数据集压缩包为dat...
大数据-数据仓库Hive
数据仓库Hive一、Hive简介数据仓库:面向主题、集成的、相对稳定的、反应历史变化的数据集合,用于支持管理决策。传统数据仓库面临挑战:无法满足海量数据存储需求;无法有效处理不同类型数据;计算可处理能力不足。Hive满足上述挑战,且Hive架构在底层的Hadoop核心组件基础之上。借助HDFS和MapReduce两个Hadoop核心组件。借助SQL语言的新的查询语言HiveQL。Hiv...
Spark大数据-Spark MLib机器学习流水线Pipeline
Spark MLib机器学习流水线PipelineDataFrame作为基本的数据抽象。Transform:转化器,传入DataFrame转换成新的DataFrame。Estimator:评估器,fit训练得到模型。Pipeline:流水线,多步骤组合。构建Pipeline:// 构建一个机器学习工作流// 在原始DataFrame上调用Pipeline.fit()方法,它具有原始...
到底了







