'煎饼侠个人主页

@Baron_ND

'煎饼侠

2022-06-24 21:13:07 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

数仓建设及数据治理

数仓为什么要分层？用空间换时间，通过大量的预处理来提升应用系统的用户体验（效率），因此数据仓库会存在大量冗余的数据；不分层的话，如果源业务系统的业务规则发生变化将会影响整个数据清洗过程，工作量巨大。通过数据分层管理可以简化数据清洗的过程，因为把原来一步的工作分到了多个步骤去完成，相当于把一个复杂的工作拆成了多个简单的工作，把一个大的黑盒变成了一个白盒，每一层的处理逻辑都相对简单和容易理解，这样我们

#postgresql #数据库

Flink1.15发布更新

Apache Flink 核心概念之一是流 (无界数据) 批 (有界数据) 一体。流批一体极大的降低了流批融合作业的开发复杂度。在过去的几个版本中，Flink 流批一体逐渐成熟，Flink 1.15 版本中流批一体更加完善，后面我们也将继续推动这一方向的进展。目前大数据处理的一个趋势是越来越多的业务和场景采用低代码的方式进行数据分析，而 Flink SQL则是这种低代码方式数据分析的典型代表。越来

#big data #apache #scala

Group by后使用rollup

一、如何理解group by后带rollup子句所产生的效果group by后带rollup子句的功能可以理解为：先按一定的规则产生多种分组，然后按各种分组统计数据（至于统计出的数据是求和还是最大值还是平均值等这就取决于SELECT后的聚合函数）。因此要搞懂group by后带rollup子句的用法主要是搞懂它是如何按一定的规则产生多种分组的。另group by后带rollup子句所返回的结果集，

Java8之Stream基本特性

什么是StreamStream 中文称为 “流”，通过将集合转换为这么一种叫做 “流” 的元素序列（注意是抽象概念），通过声明性方式，能够对集合中的每个元素进行一系列并行或串行的流水线操作。通俗来说就是你只用告诉“流”你需要什么，便在出口处等待结果接口。上图为Steam操作的基本流程，在后面的学习过程中可反复与具体的代码进行对照，加深学习印象。Stream相关概念Str...

voliate

voliate的两个特性：cacheline、伪共享。他为了保证唯一其实损耗了性能，为此做具体说明Java虚拟机规范试图定义一种Java内存模型（JMM）,来屏蔽掉各种硬件和操作系统的内存访问差异，让Java程序在各种平台上都能达到一致的内存访问效果。简单来说，由于CPU执行指令的速度是很快的，但是内存访问的速度就慢了很多，相差的不是一个数量级，所以搞处理器的那群大佬们又在CPU里加了好几层高速缓

机器学习如何选择

我应该使用哪种机器学习算法？ 8通过李晖上的SAS数据科学博客 2017年4月12日主题| 高级分析机器学习该资源主要面向初学者到中级数据科学家或分析师，他们有兴趣识别和应用机器学习算法来解决他们感兴趣的问题。当面对各种各样的机器学习算法时，初学者提出的一个典型问题是“我应该使用哪种算法？”问题的答案因许多因素而异，包括：数据的大小，质量和性质。可用的计算时间。任务...

#机器学习

反射异常 java.lang.reflect.InvocationTargetException 处理

InvocationTargetException异常由Method.invoke(obj, args...)方法抛出。当被调用的方法的内部抛出了异常而没有被捕获时，将由此异常接收。遇到个问题，就是我们在使用反射方式调用底层代码的时候，报错java.lang.reflect.InvocationTargetException，打印scala信息就抛出个java.lang.reflect.Invoc

yarn application日志查看

Yarn application 日志查看方式一：正在运行任务，可以在任务启动后或者在yarn application UI页面找到applicationId，然后在服务器上查看：yarn logs -applicationId ***方式二：已完成任务点击applicationId进去查看log方式三：在yarn-site.xml配置文件里查看log的位置，然后可以直接在浏览器上看log详情Fl

到底了