lsr40 个人主页

@lsr40

lsr40

2023-04-20 18:43:31 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【spark】存储数据到hdfs，自动判断合理分块数量（repartition和coalesce）（一）

本人菜鸟一只，也处于学习阶段，如果有什么说错的地方还请大家批评指出！首先我想说明下该文章是干嘛的，该文章粗略介绍了hdfs存储数据文件块策略和spark的repartition、coalesce两个算子的区别，是为了下一篇文章的自动判断合理分块数做知识的铺垫，如果对于这部分知识已经了解，甚至精通的同学，可以直接跳到该系列的第二篇文章！背景：spark读取Hive表或者HDFS甚至各种框...

#spark #hadoop

【数据加密/脱敏】各种数据库、代码加密/解码的方法

本人菜鸡一只，阅读该文章之前，有句话我得先说一下：本文不是来介绍加密算法的，也不是来解释加密算法的过程的。如果本意想研究加密算法的实现，或者概念。不好意思本文可能啰哩叭嗦还帮不上忙！前言：数据加密，也就是数据脱敏。其实就是将一些涉及不是本人就不该看的字段数据通过某些方法，让别人就算拿到了数据也看不懂或者解析不出关键信息。当然加密总体上分两种，一种是可还原，一种是不可还原（当然只是相...

#数据库 #hive #spark

【已解决！】spark程序报错：java.lang.IndexOutOfBoundsException: toIndex = 9

该篇文章意于记录报错，也给遇到相同问题的小伙伴提供排错思路！但是本人也没有什么好的解决方法，如果有，我会更新此文章问题已经解决，请大家拉到最下面↓↓↓↓↓记录下报错：写了段spark代码，然后报错了2018-07-30 17:19:28,854 WARN[task-result-getter-2] scheduler.TaskSetManager (Logging.scala...

关于spark的yarn模式的测试

额。。。本人菜鸡一只，强行记录点东西，分享一下，也怕自己脑子不好使，忘记了~如果有说错的，还请大家指出批评！！前言：spark的运行模式有很多，通过--master这样的参数来设置的，现在spark已经有2.3.0的版本了，运行模式有mesos，yarn，local，更好的是他可以和多种框架做整合，2.3的版本也新增了Kubernetes。。。言归正传，讲下我所做的测试：测试的代码如下（用的是sp

#spark #yarn

【hadoop】HDFS块修复

背景HDFS场景下，有时候某些异常会导致丢失文件块！这时候，我们如何处理这些文件块，或者说这些文件块是否还有救？丢文件块是一种统一的说法，实际上是两种情况，一个是Corrupt blocks，一个是Missing replicas先说个背景知识：当我上传一个文件到HDFS，这个文件在HDFS上看得到，也可以正常使用，实际上在磁盘上会存两种类型的文件举例：1、blk_10737431192、blk_

【数据库】报错：SQLException: Incorrect string value: ‘\xF0\x9F\x98\x80‘ for colum

在同步数据的时候，遇到了如标题这样的报错这得从mysql的utf8和utf8mb4说起（从盘古开天辟地说起）一、原因：mysql最早的utf8是3个byte组成的，但是有一些字符是4个byte组成的，比如现在各类短视频，交友平台用户昵称会使用的emoji表情符号，也就是说mysql中存这个昵称的字段如果是utf8的编码，那很可能就会报如上的错！二、解决：1、将字段改为utf8mb4提供不同的思路：

【数仓】数据仓库的数据质量任务监控（四）

我想在本文说说数据质量，ETL任务管理和监控数仓系列：【数仓】数据仓库的思考（一）：https://blog.csdn.net/lsr40/article/details/105576047【数仓】数据仓库的建设（二）：https://blog.csdn.net/lsr40/article/details/105639190【数仓】数据仓库的元数据管理（三）：https://...

【算法】数据结构：队列

今天来介绍队列！打算边学习，边把数据结构和一些常用的算法整理下，文章大概都会按照，是什么，为什么，怎么样来写，不算科普文章，更多是自己的一些思考和想法，还有找到一些优质资源的分享！一、队列是什么？队列和栈一样，都是受限制的数据结构，记住一点：FIFO（first input firstoutput），先进先出，就和排队一样（火车站买票，前面的人先买完离开）所以队列提供的api，应该类似enQueu

【python】爬虫篇：python对于html页面的解析（二）

我，菜鸡，有什么错误，还望大家批评指出！！前言：根据自己写的上一篇文章，我继续更第二部分的内容，详情请点击如下链接【python】爬虫篇：python连接postgresql（一）：https://blog.csdn.net/lsr40/article/details/83311860本文主要介绍了python通过bs4（BeautifulSoup）和xpath两种方法来获取爬到的...

#python #爬虫

【Flink】SQL-Client运行yarn-session模式

flink有个sql-client.sh（如下的图，是从flink官网截图下来的）官网地址：https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/sqlClient.html具体如何配置sql-client和各种框架集成，我就不搞了，大家有兴趣研究下官网或者百度下，我就试了下集成hive具体如何配置，请看以下

共 12 条

请选择