
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
一、数据仓库分层ODS层:原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理DWD层:对ODS层数据进行清洗(去除空值,脏数据,超过极限范围的数据)、维度退化脱敏等DWS层:以DWD为基础,按天进行轻度汇总。DWT层:以DWS为基础,按主题进行汇总ADS层:为各种报表提供数据二、数据仓库为什么要分层把复杂问题简单化,将复杂的任务分解成多层来完成,每一层只处理简单任务,方便定位问
机器学习分类和回归问题监督学习问题主要可以划分为两类,即 分类问题 和 回归问题分类问题预测数据属于哪一类别。 —— 离散回归问题根据数据预测一个数值。 —— 连续通俗地讲,分类问题就是预测数据属于哪一种类型,就像上面的房屋出售预测,通过大量数据训练模型,然后去预测某个给定房屋能不能出售出去,属于能够出售类型还是不能出售类型。回归问题就是预测一个数值,比如给出房屋一些特征,预测房价分类问题在监督学
四、离线推荐服务建设目录四、离线推荐服务建设4.1 离线推荐服务4.2 离线统计服务4.3 基于隐语义模型的协同过滤推荐4.3.1 用户商品推荐列表4.3.2 商品相似度矩阵4.3.3 模型评估和参数选取4.4 附件:完整代码4.1 离线推荐服务离线推荐服务是综合用户所有的历史数据,利用设定的离线统计算法和离线推荐算法周期性的进行结果统计与保存,计算的结果在一定时间周期内是固定不变的,变更的频率取
离线计算与实时计算的比较离线需求就是在计算开始前已知所有输入数据,输入数据不会产生变化,一般计算量级较大,计算时间也较长。例如今天早上一点,把昨天累积的日志,计算出所需结果。最经典的就是Hadoop的MapReduce方式;一般是根据前一日的数据生成报表,虽然统计指标、报表繁多,但是对时效性不敏感。从技术操作的角度,这部分属于批处理的操作。即根据确定范围的数据一次性计算。实时需求输入数据是可以以序
机器学习线性回归模型线性回归(linear regression)是一种线性模型,它假设输入变量 x 和单个输出变量 y 之间存在线性关系具体来说,利用线性回归模型,可以从一组输入变量 x 的线性组合中,计算输出变量 y给定有d个属性(特征)描述的示例 x =(x1; x2; …; xd),其中xi是x在第i个属性(特征)上的取值,线性模型(linear model)试图学得一个通过属性(特征)的
使用Zepplin连接Kylin进行数据可视化分析1)Zepplin安装与启动(1)将zeppelin-0.8.0-bin-all.tgz上传至Linux(2)解压zeppelin-0.8.0-bin-all.tgz之/opt/module[hadoop@hadoop102 sorfware]$ tar -zxvf zeppelin-0.8.0-bin-all.tgz -C /opt/module
1 制作地图1.1 配置Table1.2 配置Chart2 制作饼状图2.1 配置Table此处使用地区主题表——ads_user_topic2.2 配置Chart
实时预警需求分析实时预警,是一种经常出现在实时计算中的业务类型。根据日志数据中系统报错异常,或者用户行为异常的检测,产生对应预警日志。预警日志通过图形化界面的展示,可以提醒监控方,需要及时核查问题,并采取应对措施。一、需求说明需求:同一设备,5分钟内三次及以上用不同账号登录并领取优惠劵,并且过程中没有浏览商品。达到以上要求则产生一条预警日志。并且同一设备,每分钟只记录一次预警。预警日志格式二、整体
一、 项目经验之Kafka机器数量计算Kafka机器数量(经验公式)=2*(峰值生产速度*副本数/100)+1先拿到峰值生产速度,再根据设定的副本数,就能预估出需要部署Kafka的数量。比如我们的峰值生产速度是50M/s。副本数为2。Kafka机器数量=2*(50*2/100)+ 1=3台二、项目经验值Kafka分区数计算创建一个只有1个分区的topic测试这个topic的producer吞吐量和







