logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

电商交易数据分析(hive版)

05年项目使用spark+hadoop,最近公司分享给小伙伴们,就整理出文档供大家学习交流。整理hdfs+hive+spark stream+spark sql实战系列,有些数据是网上搜索下载的,同时整理时也参考其他博文以及《spark实战》

#大数据#hive#hadoop
医疗数据仓库ETL (python版本)

2.6.1 方案的选择总结:1)Spark定位于内存计算框架:分布式计算RDD、实时计算spark stream、结构化查询saprkSQL、数据挖掘spark.ML2)类比hadoop生态:分布式存储hdfs、数据仓库hive(meta、数据存储基于hdfs)、yarn分布式资源调度、nosql数据库hbase3)综合优化方案:sparkSQL做多数据源IO接入,RDD做数据清理、转换...

#etl#hive#数据仓库
hadoop spark之常用配置

1.2 安装配置1.2.1 安装jdk1.8#root vim /etc/profileexport JAVA_HOME=/data/software/jdk1.8.0_191export JRE_HOME=JAVAHOME/jreexportCLASSPATH=.:{JAVA_HOME}/jreexport CLASSPATH=.:JAVAH​OME/jreexportC...

#hadoop#spark#hdfs
电商交易数据分析(hive版)

05年项目使用spark+hadoop,最近公司分享给小伙伴们,就整理出文档供大家学习交流。整理hdfs+hive+spark stream+spark sql实战系列,有些数据是网上搜索下载的,同时整理时也参考其他博文以及《spark实战》

#大数据#hive#hadoop
用户画像 - 挖掘标签

RFM 用户价值模型1 需求假设我是一个市场营销者, 在做一次活动之前, 我可能会思考如下问题谁是我比较有价值的客户?谁是比较有潜力成为有价值的客户?谁快要流失了?谁能够留下来?谁会关心这次活动?其实上面这些思考, 都围绕一个主题 价值RFM 是一个最常见的用来评估价值的和潜在价值的工具2 RFM 是什么RFM通过最后一次消费距今时间, 单位时间内的消费频率, 平均消费金额来评估一个人对公司的价值

#spark#机器学习
到底了