电光闪烁个人主页

@yang_shibiao

电光闪烁

2022-09-29 17:20:38 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Hudi（7）：Hudi集成Spark之spark-sql方式

默认情况下，如果提供了preCombineKey，则insert into的写操作类型为upsert，否则使用insert。hoodie.sql.bulk.insert.enable 和 hoodie.sql.insert.mode。不需要指定模式和非分区列（如果存在）之外的任何属性，Hudi可以自动识别模式和配置。同hoodie.datasource.write.table.type。为了提高向

#大数据 #spark

数据湖之Hudi（7）：使用docker进行Hudi的快速体验和使用

目录0. 相关文章链接1. 构建CentOS7环境2. 设置Docker2.1. 编译Hudi源码2.2. 安装docker和docker-compose2.3.运行 docker compose 脚本并设置配置以启动集群3. 运行Demo3.1. 使用脚本拉取案例数据并发送到kafka中3.2. 将kafka中的数据写入到Hudi中3.3. hudi数据于hive的集成3.4. 运行hive执行

#docker #大数据

数据湖之Hudi（17）：在云服务器上部署和调试Hudi的踩坑之旅

问题1：不能写入数据到HDFS中（There are 1 datanode(s) running and 1 node(s) are excluded in this operation.）

#大数据 #hadoop #hdfs

离线数仓（2）：数据仓库相关架构和规范

数据仓库在企业是处于非常重要的位置；往前接收经由埋点而获取的用户行为日志、拉取商家（报社、博主等内容发布方）和用户交互的业务数据；往后输出的数据可以给领导层提供决策、可以给用户构建画像系统、可以判断用户喜好等。其他离线数仓相关文章链接由此进 ->........................

#数据仓库 #大数据

Flink（20）：Flink之分布式缓存

0. 相关文章链接1. Flink中分布式缓存概述Flink提供了一个类似于Hadoop的分布式缓存，让并行运行实例的函数可以在本地访问。这个功能可以被使用来分享外部静态的数据，例如：机器学习的逻辑回归模型等。广播变量是将变量分发到各个TaskManager节点的内存上，分布式缓存是将文件缓存到各个TaskManager节点上。2. 编码步骤注册一个分布式缓存文件：env.registerCach

#大数据 #flink

用户画像标签数据存储之MySQL存储

赵宏田老师的用户画像·方法论与工程化解决方案一书读后笔记主要记录的是该书中用户画像之标签数据存储一章

用户画像标签数据存储之Elasticsearch存储

赵宏田老师的用户画像·方法论与工程化解决方案一书读后笔记主要记录的是该书中用户画像之标签数据存储一章

数据湖之Hudi（12）：使用Spark对Hudi中的数据进行增量查询（Incremental query）

目录0. 相关文章链接1. 环境准备和数据准备2. Maven依赖3. 核心代码0. 相关文章链接大数据基础知识点文章汇总1. 环境准备和数据准备对Hudi的环境准备和数据准备，可以参考博主的另一篇博文，这里就不多描述了，博文连接：数据湖之Hudi（9）：使用Spark向Hudi中插入数据2. Maven依赖在另一篇博文中有Maven依赖，但在这里还是补充一下<repositories&g

#spark #大数据 #big data

数据湖之Hudi（11）：使用Spark更新Hudi中的数据

目录0. 相关文章链接1. 环境准备1.1.构建服务器环境1.2. 构建Maven项目和写入数据2. Maven依赖3. 核心代码0. 相关文章链接大数据基础知识点文章汇总1. 环境准备1.1.构建服务器环境关于构建Spark向Hudi中插入数据的服务器环境，可以参考博文的另外一篇博文，在CentOS7上安装HDFS即可，博文连接：数据湖之Hudi（6）：Hudi与Spark和HDFS的集成安装

#spark #大数据 #big data

数据湖之Hudi（2）：数据湖框架

目录0. 相关文章链接1. 数据湖框架2.Delta Lake3.Apache Iceberg4. Apache Hudi0. 相关文章链接大数据基础知识点文章汇总1. 数据湖框架目前市面上流行的三大开源数据湖方案分别为：Delta Lake、Apache Iceberg和Apache Hudi。Delta Lake：DataBricks公司推出的一种数据湖方案，网址：https://delta

#big data #大数据

共 44 条

请选择