不以物喜2020 个人主页

@Keyuchen_01

不以物喜2020

2022-09-16 17:27:27 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Spark-core项目实战——电商用户行为数据分析

0 数据准备本实战项目的数据是采集自电商的用户行为数据.主要包含用户的 4 种行为: 搜索, 点击, 下单和支付.数据格式如下, 不同的字段使用下划线分割开_:数据说明:数据采用_分割字段每一行表示用户的一个行为, 所以每一行只能是四种行为中的一种.如果搜索关键字是 null, 表示这次不是搜索如果点击的品类 id 和产品 id 是 -1 表示这次不是点击下单行为来说一次可以下单多个产品, 所以品

#spark #大数据 #数据分析

本地数据仓库项目(一) —— 本地数仓搭建详细流程

搭建离线数仓，并实现数据采集到简单数据分析过程

#数据仓库 #hive #hadoop +2

Linux系统句柄问题分析----linux系统文件删除后，空间却不释放原因分析

Linux系统句柄问题分析1 概念句柄就是一个对象的标识符，只要获得对象的句柄，我们就可以对对象进行任意的操作，包括窗口，按钮，图标，输出设备，控件或者文件等；句柄是一种特殊的智能指针，用一个唯一的整数值标识一个对象（即编号），并不指向实际的内核对象，而是内核对象的虚拟地址；只有Windows中才有句柄，Windows中的句柄是指针的指针，因为windows中对象的经常会在内存中移动，所以地址值经

#linux #操作系统 #运维 +1

Ambari-2.7.7源码编译

本文基于Ambari-2.7.7版本进行源码编译，并输出详细文档说明

#ambari #hadoop #大数据 +1

大数据数据湖技术Hudi0.12.0版本源码编译

Apache Hudi（Hadoop Upserts Delete and Incremental）是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi提供了表、事务、高效的upserts/delete、高级索引、流摄取服务、数据集群/压缩优化和并发，同时保持数据的开源文件格式。Apache Hudi不仅非常适合于流工作负载，而且还允许创建高效的增量批处理管道

#大数据 #hadoop

Flink流式计算之ProcessionFunction说明与案例

0 ProcessFunction API我们之前学习的转换算子是无法访问事件的时间戳信息和水位线信息的。而这在一些应用场景下，极为重要。例如MapFunction这样的map转换算子就无法访问时间戳或者当前事件的事件时间。基于此，DataStream API提供了一系列的Low-Level转换算子。可以访问时间戳、watermark以及注册定时事件。还可以输出特定的一些事件，例如超时事件等。Pr

#flink #大数据 #scala

Error while fetching metadata with correlation id 4 : {first2=LEADER_NOT_AVAILABLE}

1 Kafka报错：1)Error while fetching metadata with correlation id 4 : {first2=LEADER_NOT_AVAILABLE}2)onnection to node -1 could not be established. Broker may not be available.使用KAFKA的JAVA-API，远程连接kafka服务

#bug #kafka #大数据

[Bug]Error from server (BadRequest): container “xx“ in pod “xx“ is waiting to start:trying and faili

0 背景执行如下yaml文件创建Pod时发生报错---apiVersion: v1kind: Podmetadata:name: volume-podspec:containers:- name: tomcatimage: tomcat:latestports:- containerPort: 8080volumeMounts:- name: app-logsmountPat

#kubernetes #docker #linux

到底了