logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

同一台电脑同时使用gitlab和github

背景:公司使用的代码管理工具是gitlab,我个人使用的是github,在使用同一台电脑的情况下,将代码上传到响应的工具中,我们知道,在使用这两款工具的时候,需要在本地生成秘钥,在工具平台上配置相关秘钥,同一台电脑使用两种工具就需要我们进行配置,让电脑知道该往那里传。废话说完~~思路:1、在~/.ssh/下生成两个秘钥文件(github:id_rsa_self,gitlab:id_rsa_c...

【2】数据湖架构中 Iceberg 的核心特性

在业界的数据湖方案中有 Hudi、Iceberg 和 Delta 三个关键组件可供选择。一、Iceberg 是什么?Iceberg 官网中是这样定义的:Apache Iceberg is an open table format for huge analytic datasets即 Iceberg 是大型分析型数据集上的一个开放式表格式。通过该表格式,将下层的存储介质(HDFS、S3、OSS等)

#大数据
一文看懂Spark中reduceByKey 和 groupByKey 的区别

目录一、先看结论二、举例、画图说明1.实现的功能分别是什么?1).groupByKey 实现 WordCount2).reduceByKey 实现 WordCount2.画图解析两种实现方式的区别1) groupByKey 实现 WordCount2).reduceByKey 实现 WordCount(简单流程)3).reduceByKey 实现 WordCount(终极流程)一、先看结论1.从S

#spark#big data
Hive解决数据倾斜的各种优化方法

一、概念数据处理中的数据倾斜:个人理解,在数据处理的MapReduce程序中,由于数据的特殊性,数据中存在大量相同key的数据,根据业务需求需要对这个key进行分区操作(group by/join)时,在map的partition阶段将大数据量的相同key的数据全部分配到同一个Reduce,导致Reduce的节点数据量分配极度不均衡的现象,称为数据倾斜。数据倾斜有哪些表现:最直观的表现就是:Hiv

#hive
数据湖概念以及数据湖产生的背景和价值

一、数据湖的概念数据湖是一个集中式存储库,允许以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。是构建在低成本分布式存储之上,提供更好事物和性能支持的统一数据存储系统。典型分层如下图所示:最底层为存储层:一般依赖HDFS或者公有云存储(比如S3)保存数据;数

#大数据
暂无文章信息