
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
0. 相关文章链接1. Flink中分布式缓存概述Flink提供了一个类似于Hadoop的分布式缓存,让并行运行实例的函数可以在本地访问。这个功能可以被使用来分享外部静态的数据,例如:机器学习的逻辑回归模型等。广播变量是将变量分发到各个TaskManager节点的内存上,分布式缓存是将文件缓存到各个TaskManager节点上。2. 编码步骤注册一个分布式缓存文件:env.registerCach
赵宏田 老师的 用户画像·方法论与工程化解决方案 一书读后笔记主要记录的是该书中 用户画像之标签数据存储 一章
赵宏田 老师的 用户画像·方法论与工程化解决方案 一书读后笔记主要记录的是该书中 用户画像之标签数据存储 一章
目录0. 相关文章链接1. 环境准备和数据准备2. Maven依赖3. 核心代码0. 相关文章链接大数据基础知识点 文章汇总1. 环境准备和数据准备对Hudi的环境准备和数据准备,可以参考博主的另一篇博文,这里就不多描述了,博文连接:数据湖之Hudi(9):使用Spark向Hudi中插入数据2. Maven依赖在另一篇博文中有Maven依赖,但在这里还是补充一下<repositories&g
目录0. 相关文章链接1. 环境准备1.1.构建服务器环境1.2. 构建Maven项目和写入数据2. Maven依赖3. 核心代码0. 相关文章链接大数据基础知识点 文章汇总1. 环境准备1.1.构建服务器环境关于构建Spark向Hudi中插入数据的服务器环境,可以参考博文的另外一篇博文,在CentOS7上安装HDFS即可,博文连接:数据湖之Hudi(6):Hudi与Spark和HDFS的集成安装
目录0. 相关文章链接1. 数据湖框架2.Delta Lake3.Apache Iceberg4. Apache Hudi0. 相关文章链接大数据基础知识点 文章汇总1. 数据湖框架目前市面上流行的三大开源数据湖方案分别为:Delta Lake、Apache Iceberg和Apache Hudi。Delta Lake:DataBricks公司推出的一种数据湖方案,网址:https://delta
目录0. 相关文章链接1. 环境准备和数据准备2. Maven依赖3. 核心代码0. 相关文章链接大数据基础知识点 文章汇总1. 环境准备和数据准备对Hudi的环境准备和数据准备,可以参考博主的另一篇博文,这里就不多描述了,博文连接:数据湖之Hudi(9):使用Spark向Hudi中插入数据2. Maven依赖在另一篇博文中有Maven依赖,但在这里还是补充一下<repositories&g
问题1:不能写入数据到HDFS中(There are 1 datanode(s) running and 1 node(s) are excluded in this operation.)
目录0. 相关文章链接1. 什么是Hudi2. Hudi在大数据中的位置3. Hudi的特性4. Hudi各版本发布时间0. 相关文章链接大数据基础知识点 文章汇总1. 什么是HudiApache Hudi(发音“hoodie”)是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接带到数据湖中。Hudi提供了表,事务,高效upserts /删除,高级索引,流式摄取服务,数据群集/
数据仓库在企业是处于非常重要的位置;往前接收经由埋点而获取的用户行为日志、拉取商家(报社、博主等内容发布方)和用户交互的业务数据;往后输出的数据可以给领导层提供决策、可以给用户构建画像系统、可以判断用户喜好等。其他 离线数仓 相关文章链接由此进 ->........................








