简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Flink内存易失,利用CheckPoint机制数据持久化,偏于出现异常,应用挂掉时,做数据恢复。所谓CheckPoint(可以理解为CheckPoint是把State数据持久化存储了)则表示了一个FlinkJob在一个特定时刻的一份全局状态快照,即包含了所有Task/Operator的状态。一、CheckPoint的原理Flink中基于异步轻量级的分布式快照技术提供了Checkpoints容错机
前几天用spark引擎执行了一个较大的sql,涉及的表和数据量都不少,不同时间段执行了几次都超时,经过上网及分析,尝试解决了此问题,使用spark引擎测试几次大概都在半个小时左右完成,不再出现超时现象一、问题现象摘抄部分现场日志如下:2022-02-01 13:02:12 INFO 22/02/01 13:02:12 [dag-scheduler-event-loop] INFO DAGSched
一、SideOutput流作用侧输出流有两个作用:(1)分隔过滤。充当filter算子功能,将源中的不同类型的数据做分割处理。因为使用filter 算子对数据源进行筛选分割的话,会造成数据流的多次复制,导致不必要的性能浪费(2)延时数据处理。在做对延时迟窗口计算时,对延时迟到的数据进行处理,即时数据迟到也不会造成丢失二、SideOutput使用示例@Dataclass OrderLog {priv
一、问题再现由于项目需要,采购电信天翼云,由于是新搭建的集群,在yarn上跑Spark任务时,每个几个小时或者半天出现节点丢失(Lost Nodes),访问http://cloudera01:8088,如下图,可以看到2个节点和集群失去了联系二、问题排查1、登录cm管理界面首先登录cm管理界面,去查看yarn的运行状况,看到2个NodeManager运行不良,点击不良链接...
由于Csv格式简单,占内存少,生成的文件相对Excel小,可用各种编辑器打开等优点,导出类需求多用Csv格式之下并没有经过大数据量性能导出测试,若有大数据量级使用时可自行测试性能:Controller代码:@RequestMapping(value = "/export")public void getSkuList1(HttpServletResponse response){String[]
由于presto小数据量比hive查询快的多,日常查询作业会经常在hive和presto中转换,但二者函数或部分语法不一样,尤其是日期,因此简单梳理了hive与presto最近一段时间日期时间转换。
工作中常用到Java日期排序(升序或者降序),总结Java集合List按日期升序或降序常见的三种方法如下准备的类import lombok.AllArgsConstructor;import lombok.Data;@AllArgsConstructor@Dataclass Order {/*** 订单号*/private String orderNum;/*** 付款时间...
在VMware上安装虚拟机是学习linux比较好的途径,VMware安装好一台虚拟机后,我们往往需要多台虚拟机练习不同的业务,这时候就可以克隆已经安装好的虚拟机,无需重新安装。克隆出的虚拟机需要更改hostname、ip地址、mac地址才可以正常使用。这里以CentOS为例简单说明。1、修改hostname输入vi /etc/sysconfig/network,回车键,按i进行编辑...
一、简述1、es介绍ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口,Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。ElasticSearch应用广泛,常用用于大数据、云计算中,它包含如下特性:分布式高可用搜索引擎:每个索引...
hive依赖于hadoop集群和mysql数据库,hadoop集群安装不在详述,mysql见3(3)1、配置分布NameNodeDataNodeZookeeperDFSZKFCJournalNodehive(单用户)hive(多用户)mysqlnode0111...