logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

完全分布式部署Hadoop集群(四)集群的基本测试以及集群时间同步

创建文件夹hadoop fs -mkdir -p /user/input命令的形式查看文件上传文件hadoop fs -put wcinput/wc.input /user/input查看上传的文件hadoop fs -cat /user/input/wc.input上传大文件hadoop fs -put /opt/software/hadoop-2.7.2.tar.g...

flinksql 的函数使用指南

文章目录时间函数CURRENT_TIMECURRENT_DATE时间函数CURRENT_TIME使用select CURRENT_TIME from a结果: 只有时分秒18:51:28CURRENT_DATE使用select CURRENT_DATE from a结果 只有年月日2022-02-11

#flink
flink sql 自定义connector 原理解读

文章目录创建动态表工厂类比于flume的sink,source,channel的模型,定义好connector,用户编写自定义的source端和siink端,就可以将数据需求sql化实现架构图:创建动态表工厂对于source端实现 DynamicTableSourceFactory 接口, DynamicTableSourceFactory 需要实现的方法@Overridepublic Dynam

#maven#flink#spark
flink 用户行为电商项目:需求评估以及代码实现

文章目录项目主要模块实时热门商品统计需求:思路:实时流量统计恶意登录监控订单支付失效监控数据源埋点数据web服务器日志数据项目主要模块实时热门商品统计需求:统计近一小时热门商品,5分钟更新一次(浏览的pv衡量)思路:所有用户行为数据中,过滤出浏览(pv)统计构建滑动窗口.窗口长度为1小时,滑动距离5分钟按商品id分流设置时间窗口同一份数据发送到不同窗口窗口聚合对于...

flink实时数仓(十):完整代码

见码云https://gitee.com/zhang_bushuai/flink_realtime_warehouse

flink实时数仓(一):项目架构设计以及需求

文章目录架构设计数据同步-解决方案mysql数据库建模HBase数据库建模架构设计数据同步-解决方案mysql数据库建模HBase数据库建模

(14)Hive基于hadoop的压缩

文章目录MR支持的压缩编码压缩参数配置开启Map输出阶段压缩开启Reduce输出阶段压缩文件存储格式列式存储和行式存储TextFile格式Orc格式Parquet格式主流文件存储格式对比实验1.TextFile修改Hadoop集群具有Snappy压缩方式测试存储和压缩MR支持的压缩编码压缩格式工具算法文件扩展名是否可切分DEFLATE无DEFLATE.defla...

(8)Hive的DDL数据定义(表的操作)

文章目录创建表管理表外部表管理表和外部表的使用场景案例实操管理表与外部表的互相转换分区表分区表基本操作创建分区表加载数据到分区表中单分区查询增加分区删除分区查看分区分区表注意事项1.创建二级分区表2.正常的加载数据3.把数据直接上传到分区目录上,让分区表和数据产生关联的三种方式修改表增加/修改/替换列信息删除表创建表1.建表语法CREATE [EXTERNAL] TABLE [IF NOT ...

spark大数据分析:spark Struct Strreaming(27)Trigger触发器的分类

文章目录持续批处理一次性批处理连续处理持续批处理实现方式Trigger.ProcessingTime(时间间隔)适用场景:流式数据的批处理作业,如果不设置,默认适用该类型,间隔为0,表示尽可能处理每一个批次的数据,即Trigger.ProcessingTime(0),如果无数据,处于阻塞状态,等待数据流入一次性批处理实现方式Trigger.Once()场景非实时数据分析,执行完毕后程序退出,一般需

    共 43 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择