
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
(1)获取牛油果销量数据,对无用的数据进行整理;(2)对数据进行清洗;(3)对数据采用可视化方式显示数据的类别分布;(4)采用聚类算法对每年的牛油果销量进行聚类,寻找出销售相似的地区关键词:数据清洗,数据可视化,聚类分析首先要实现基于python的数据读取及清洗整理;整理出关牛油果价格及销量有用且关联的数据;其次要实现对海量数据的可视化分析,最后将销量及城市的数据进行聚类分析,找出销售相似的地区。

大数据的特点、大数据分而治之的处理思想。流处理和批处理的区别。流处理的基础概念。流处理框架的技术更迭和架构演进。

流处理基础概念,延迟和吞吐,窗口与时间,不同窗口模式,常见的窗口形式:滚动窗口、滑动窗口、会话窗口,时间语义,Event Time和Processing Time,Watermark,状态与检查点,数据一致性保障,At-Most-Once,At-Least-Once,Exactly-Once

python基础(一)Life is short, use Python.一、python语言基础Jupyter快捷键:Enter:转入编辑模式Shift-Enter:运行本单元,选中下一个单元Y:单元转入代码状态M:单元转入markdown状态A:在上方插入新单元B:在下方插入新单元X:剪切选中的单元C:复制选中的单元Shift-V:粘贴到上方单元V:粘贴到下方单元Shift-M:合并选中的单元

大数据bug笔记之Azkaban问题发现azkaban web-server 节点不能启动问题。azkaban安装完成后,启动服务exec-server与web-server,jps发现web-server的节点没起来。解决问题首先,检查配置文件,看文件是否有差错;如果没有,第二步执行start-web.sh shell脚本文件,再进入到azkaban/web-server目录下查看webServ
大数据bug笔记之Azkaban问题发现azkaban web-server 节点不能启动问题。azkaban安装完成后,启动服务exec-server与web-server,jps发现web-server的节点没起来。解决问题首先,检查配置文件,看文件是否有差错;如果没有,第二步执行start-web.sh shell脚本文件,再进入到azkaban/web-server目录下查看webServ
数据库和表的基本操作数据库的基本操作MySQL安装后,系统会自动创建几个必须的数据库,MySQL数据库的系统信息都存在数据库中。若删除这些系统数据库,MySQL就不能正常工作。1、创建数据库基本SQL语法格式为:CREATE DATABASE 数据库名;数据库命名注意:MySQL命令解释器对大小写不敏感,数据库名无论用户输入的是大写还是小写,MySQL命令解释器都是为小写,但是必须符合操作系统文件
大数据编程一般会使用Java、Scala和Python等编程语言,Java、Scala、Python、SQL语言介绍

数据仓库的核心是展现层和提供优质的服务。ETL及其规范、分层等所做的一切都是为了一个更清晰易用的展现层。数仓分层、数仓建模、维度建模模式、维度建模详解、维度建模过程、数仓建设实战、ETL过程
数据治理以及质量建设的范围很广,包含数据本身的管理、数据安全、数据成本、元数据管理、数据建模等。为什么要做数据治理?数据治理的方式:规范治理、架构治理、元数据治理、安全治理。为什么要做数据治理建设?数据质量要求、数据质量管理流程:数据资产等级划分、数据加工过程卡点校验。数据处理风险监控