logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【spark】存储数据到hdfs,自动判断合理分块数量(repartition和coalesce)(一)

本人菜鸟一只,也处于学习阶段,如果有什么说错的地方还请大家批评指出!首先我想说明下该文章是干嘛的,该文章粗略介绍了hdfs存储数据文件块策略和spark的repartition、coalesce两个算子的区别,是为了下一篇文章的自动判断合理分块数做知识的铺垫,如果对于这部分知识已经了解,甚至精通的同学,可以直接跳到该系列的第二篇文章!背景:spark读取Hive表或者HDFS甚至各种框...

#spark#hadoop
【数据加密/脱敏】各种数据库、代码加密/解码的方法

本人菜鸡一只,阅读该文章之前,有句话我得先说一下:本文不是来介绍加密算法的,也不是来解释加密算法的过程的。如果本意想研究加密算法的实现,或者概念。不好意思本文可能啰哩叭嗦还帮不上忙!前言:数据加密,也就是数据脱敏。其实就是将一些涉及不是本人就不该看的字段数据通过某些方法,让别人就算拿到了数据也看不懂或者解析不出关键信息。当然加密总体上分两种,一种是可还原,一种是不可还原(当然只是相...

#数据库#hive#spark
【已解决!】spark程序报错:java.lang.IndexOutOfBoundsException: toIndex = 9

该篇文章意于记录报错,也给遇到相同问题的小伙伴提供排错思路!但是本人也没有什么好的解决方法,如果有,我会更新此文章问题已经解决,请大家拉到最下面↓↓↓↓↓记录下报错:写了段spark代码,然后报错了2018-07-30 17:19:28,854 WARN[task-result-getter-2] scheduler.TaskSetManager (Logging.scala...

关于spark的yarn模式的测试

额。。。本人菜鸡一只,强行记录点东西,分享一下,也怕自己脑子不好使,忘记了~如果有说错的,还请大家指出批评!!前言:spark的运行模式有很多,通过--master这样的参数来设置的,现在spark已经有2.3.0的版本了,运行模式有mesos,yarn,local,更好的是他可以和多种框架做整合,2.3的版本也新增了Kubernetes。。。言归正传,讲下我所做的测试:测试的代码如下(用的是sp

#spark#yarn
【hadoop】HDFS块修复

背景HDFS场景下,有时候某些异常会导致丢失文件块!这时候,我们如何处理这些文件块,或者说这些文件块是否还有救?丢文件块是一种统一的说法,实际上是两种情况,一个是Corrupt blocks,一个是Missing replicas先说个背景知识:当我上传一个文件到HDFS,这个文件在HDFS上看得到,也可以正常使用,实际上在磁盘上会存两种类型的文件举例:1、blk_10737431192、blk_

【数据库】报错:SQLException: Incorrect string value: ‘\xF0\x9F\x98\x80‘ for colum

在同步数据的时候,遇到了如标题这样的报错这得从mysql的utf8和utf8mb4说起(从盘古开天辟地说起)一、原因:mysql最早的utf8是3个byte组成的,但是有一些字符是4个byte组成的,比如现在各类短视频,交友平台用户昵称会使用的emoji表情符号,也就是说mysql中存这个昵称的字段如果是utf8的编码,那很可能就会报如上的错!二、解决:1、将字段改为utf8mb4提供不同的思路:

【数仓】数据仓库的数据质量任务监控(四)

我想在本文说说数据质量,ETL任务管理和监控数仓系列:【数仓】数据仓库的思考(一):https://blog.csdn.net/lsr40/article/details/105576047【数仓】数据仓库的建设(二):https://blog.csdn.net/lsr40/article/details/105639190【数仓】数据仓库的元数据管理(三):https://...

【算法】数据结构:队列

今天来介绍队列!打算边学习,边把数据结构和一些常用的算法整理下,文章大概都会按照,是什么,为什么,怎么样来写,不算科普文章,更多是自己的一些思考和想法,还有找到一些优质资源的分享!一、队列是什么?队列和栈一样,都是受限制的数据结构,记住一点:FIFO(first input firstoutput),先进先出,就和排队一样(火车站买票,前面的人先买完离开)所以队列提供的api,应该类似enQueu

【python】爬虫篇:python对于html页面的解析(二)

我,菜鸡,有什么错误,还望大家批评指出!!前言:根据自己写的上一篇文章,我继续更第二部分的内容,详情请点击如下链接【python】爬虫篇:python连接postgresql(一):https://blog.csdn.net/lsr40/article/details/83311860本文主要介绍了python通过bs4(BeautifulSoup)和xpath两种方法来获取爬到的...

#python#爬虫
【Flink】SQL-Client运行yarn-session模式

flink有个sql-client.sh(如下的图,是从flink官网截图下来的)官网地址:https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/sqlClient.html具体如何配置sql-client和各种框架集成, 我就不搞了,大家有兴趣研究下官网或者百度下,我就试了下集成hive具体如何配置,请看以下

    共 12 条
  • 1
  • 2
  • 请选择