logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Flink的状态持久化和状态后端

检查点的保存离不开 JobManager 和 TaskManager,以及外部存储系统的协调。在应用进行检查点保存时,首先会由 JobManager 向所有 TaskManager 发出触发检查点的命令;TaskManger 收到之后,将当前任务的所有状态进行快照保存,持久化到远程的存储介质中;完成之后向JobManager 返回确认信息。

#flink#数据库#大数据
大数据中的数据安全

在数据仓库平台中,对应数据的请求必须严格尊属数据安全体系。

#大数据
ElasticSearch的数据存储及写入原理

数据先写入内存 buffer,然后每隔 1s,将数据 refresh 到 os cache,到了 os cache 数据就能被搜索到(所以我们说es 是准实时的, es 从写入到能被搜索到,中间有 1s 的延迟)。每隔 5s,将数据写入 translog 文件(这样如果机器宕机,内存数据全没,最多会有 5s 的数据丢失),translog 大到一定程度,或者默认每隔 30mins,会触发 comm

#elasticsearch#大数据
私有化部署DeepSeek

复制如下链接在linux中执行命令 curl -fsSL https://ollama.com/install.sh | sh 进行下载安装将地址粘贴到输入框:https://github.com/ollama/ollama/releases/latest/download/ollama-linux-amd64.tgz。

#linux#运维#服务器
数据治理基础

应该是企业顶层设计、战略规划方面的内容,是数据管理活动的总纲和指导,指明数据管理过程中那些决策要被制定,以及由谁来负责,更强调组织模式、责任分工和标准规范。数据治理是个宽泛的概念,而在于数仓日常开发中,对于真正干活的我们来说,最主要要的就是几个方面。

#大数据
hive中如何新增字段

1、方法1alter table 表名 add columns (列名 string COMMENT '新添加的列') CASCADE;与alter table 表名 add columns (列名 string COMMENT '新添加的列');CASCADE会刷历史分区字段2、方法2 (适用于外部表)当分区过多的情况下,直接适用.........

#hive
Parquet存储格式和Snappy压缩方式

一文讲透大数据列存标准格式:Parquet__Kafka_的博客-CSDN博客_大数据存储格式snappy-java两种压缩方式的区别_unknown-null的博客-CSDN博客_java snappy

#hadoop#大数据#big data
FlinkSql中表的创建及查询

本文主要介绍FlinkSql中和以往的sql语句差异的地方

#数据库#java#mysql
到底了