
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
有很多的圈外人都会感觉“大数据程序员的薪资很高”,但是并不是所有的大数据程序员的薪资都是这么的高,这是存在着一定的比例的,当然也和自身的开发技术水平有一定的关系。有很多小伙伴在刚开始选择大数据培训机构来学习到最终离职,中间还是存在着几点因素的:第一点,高薪酬对应的是高付出,对于大部分互联网行业来说,包括程序员,高薪酬是大家都认可的,但是没日没夜的加班也是常态,其实从时薪来看,不见得高很多。第二点,

以下文章来源于大数据技术与架构一、提要作为一名数据工作人员,SQL是日常工作中最常用的数据提取&简单预处理语言。因为其使用的广泛性和易学程度也被其他岗位比如产品经理、研发广泛学习使用,本篇文章主要结合经典面试题,给出通过数据开发面试的SQL方法与实战。二、解题思路简单——会考察一些group by & limit之类的用法,或者平时用的不多的函数比如rand()类;会涉及到一些表之

一致性的三种级别当在分布式系统中引入状态时,自然也引入了一致性问题。一致性实际上是“正确性级别”的另一种说法,即在成功处理故障并恢复之后得到的结果,与没有发生任何故障时得到的结果相比。在流处理中,一致性分为 3 个级别。at-most-once:数据最多被处理一次。这其实是没有正确性保障的委婉说法——故障发生之后,计数结果可能丢失。at-least-once:数据最少被处理一次。这表示计数结果可能

Jack|1|2|1 表示 Jack|1 这行数据数据在一个表中存在两行,结合差异行 Jack|1|1|1 来看其实就是 Jack|1 这行数据一个表有一行另一个表有两行。通过这个方式就可以对双跑产出的结果表进行一个全量的对比_大数据培训。

以下文章来源于数据社1、开启FetchTask一个简单的查询语句,是指一个没有函数、排序等功能的语句,当开启一个Fetch Task功能,就执行一个简单的查询语句不会生成MapRreduce作业,而是直接使用FetchTask,从hdfs文件系统中进行查询输出数据,从而提高效率。设置的方式:Hive.fetch.task.conversion 默认为minimal修改配置文件hive-site.x

Hive简介Hive 是基于 Hadoop 的一个数据仓库工具,用来进行数据提取、转化、加载。这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。hive 数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供 SQL 查询功能,能将 SQL 语句转变成 MapReduce 任务来执行。一、文件存储格式在HIVE中,常见的文件存储格式有1 TextFile2 Parquet

一、ElasticSearchSink介绍在使用Flink进行数据的处理的时候,一个必要步骤就是需要将计算的结果进行存储或导出,Flink中这个过程称为Sink,官方我们提供了常用的几种Sink Connector,例如:Apache KafkaElasticsearchElasticsearch 2xHadoop FileSystem…这篇就选取其中一个常用的ElasticsearchSink来

以下文章来源于大数据技术与架构背景目前公司的分析数据基本存储在 Hive 数仓中,使用 Presto 完成 OLAP 分析,但是随着业务实时性增强,对查询性能的要求不断升高,同时许多数据应用产生,比如对接 BI 进行分析等,Presto不能满足需求,在这个阶段我们引入了ClickHouse,用来建设性能更强悍,响应时间更短的数据分析平台,以满足实时性要求,但如何连通 Hive 数仓和ClickHo

以下文章来源于涤生大数据1 Hive有哪些参数,如何查看这些参数Hive自带的配置属性列表封装在HiveConfJava类中,因此请参阅该HiveConf.java文件以获取Hive版本中可用的配置属性的完整列表。具体可以下载hive.src通过eclipse查看。全部属性有上千个吧,一般Hive的自带属性都是以hive.开头的,每个属性且自带详细的描述信息,其次Hive官网也有,但是属性不是特别

一、问题分析概览流计算作业通常运行时间长,数据吞吐量大,且对时延较为敏感。但实际运行中,Flink 作业可能因为各种原因出现吞吐量抖动、延迟高、快照失败等突发情况,甚至发生崩溃和重启,影响输出数据的质量,甚至会导致线上业务中断,造成报表断崖、监控断点、数据错乱等严重后果。本文会对Flink 常见的问题进行现象展示,从原理上说明成因和解决方案,并给出线上问题排查的工具技巧,帮助大家更好地应对 Fli
