
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
创建文件夹hadoop fs -mkdir -p /user/input命令的形式查看文件上传文件hadoop fs -put wcinput/wc.input /user/input查看上传的文件hadoop fs -cat /user/input/wc.input上传大文件hadoop fs -put /opt/software/hadoop-2.7.2.tar.g...
文章目录时间函数CURRENT_TIMECURRENT_DATE时间函数CURRENT_TIME使用select CURRENT_TIME from a结果: 只有时分秒18:51:28CURRENT_DATE使用select CURRENT_DATE from a结果 只有年月日2022-02-11
文章目录创建动态表工厂类比于flume的sink,source,channel的模型,定义好connector,用户编写自定义的source端和siink端,就可以将数据需求sql化实现架构图:创建动态表工厂对于source端实现 DynamicTableSourceFactory 接口, DynamicTableSourceFactory 需要实现的方法@Overridepublic Dynam
文章目录项目主要模块实时热门商品统计需求:思路:实时流量统计恶意登录监控订单支付失效监控数据源埋点数据web服务器日志数据项目主要模块实时热门商品统计需求:统计近一小时热门商品,5分钟更新一次(浏览的pv衡量)思路:所有用户行为数据中,过滤出浏览(pv)统计构建滑动窗口.窗口长度为1小时,滑动距离5分钟按商品id分流设置时间窗口同一份数据发送到不同窗口窗口聚合对于...
见码云https://gitee.com/zhang_bushuai/flink_realtime_warehouse
文章目录架构设计数据同步-解决方案mysql数据库建模HBase数据库建模架构设计数据同步-解决方案mysql数据库建模HBase数据库建模
文章目录MR支持的压缩编码压缩参数配置开启Map输出阶段压缩开启Reduce输出阶段压缩文件存储格式列式存储和行式存储TextFile格式Orc格式Parquet格式主流文件存储格式对比实验1.TextFile修改Hadoop集群具有Snappy压缩方式测试存储和压缩MR支持的压缩编码压缩格式工具算法文件扩展名是否可切分DEFLATE无DEFLATE.defla...
文章目录创建表管理表外部表管理表和外部表的使用场景案例实操管理表与外部表的互相转换分区表分区表基本操作创建分区表加载数据到分区表中单分区查询增加分区删除分区查看分区分区表注意事项1.创建二级分区表2.正常的加载数据3.把数据直接上传到分区目录上,让分区表和数据产生关联的三种方式修改表增加/修改/替换列信息删除表创建表1.建表语法CREATE [EXTERNAL] TABLE [IF NOT ...
文章目录持续批处理一次性批处理连续处理持续批处理实现方式Trigger.ProcessingTime(时间间隔)适用场景:流式数据的批处理作业,如果不设置,默认适用该类型,间隔为0,表示尽可能处理每一个批次的数据,即Trigger.ProcessingTime(0),如果无数据,处于阻塞状态,等待数据流入一次性批处理实现方式Trigger.Once()场景非实时数据分析,执行完毕后程序退出,一般需







