
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
回顾从前,已经在大数据领域混了5年了,经手了不少大数据集群搭建方案,自己也做过许多大数据平台的运维工作,在这里进行阶段性的总结,主要是 原生Hadoop、CDH、Ambari集群搭建对比。

回顾从前,已经在大数据领域混了5年了,经手了不少大数据集群搭建方案,自己也做过许多大数据平台的运维工作,在这里进行阶段性的总结,主要是 原生Hadoop、CDH、Ambari集群搭建对比。

1.前言本文将新兴的数据湖技术和数据仓库技术进行了对比,然后简要介绍三种常见的数据湖实施方案。2.数据仓库痛点没有存储非结构化的数据这里并不是说数仓不能存储非结构化的数据,而是数仓的分层模型决定了数据会被规整计算为结构化的数据,然后在处理完成的数据上进行建模、分析等。一般的数仓分层模型:ODS-> DWD-> DWS-> APP。数据分析人员一般会在 APP或 DWS层上进行分析
前言设想有一批各种类型的离线(或实时)数据(文本、csv、Excel 等),我们如何挖掘这些数据背后的价值,分析这些数据之间的关联?很容易想到的就是,写程序把每种数据按照某种规则抽取出来放到关系型数据库中进行分析。这样做可能存在什么样的问题?按照某种规则进行抽取,是否会导致原始数据信息的丢失?因为前期设计不足或者后期需求变化导致数据的重复处理?面对上千亿,甚至上万亿的数据,...
dify工作室支持在画布上直接编辑业务流程,通过调用开源大模型可以实现特定场景的业务,而且可以迅速更新发布。因此,某些项目要求在产品里面能够直接编辑 dify业务流程,使得现场开发人员能够迅速响应客户需求。另外,方便对 dify进行运维,比如 更新开源大模型认证信息。

最近笔者在做 dify的私有化部署和二次开发相关工作,本文总结界面改造的一些内容。

前言设想有一批各种类型的离线(或实时)数据(文本、csv、Excel 等),我们如何挖掘这些数据背后的价值,分析这些数据之间的关联?很容易想到的就是,写程序把每种数据按照某种规则抽取出来放到关系型数据库中进行分析。这样做可能存在什么样的问题?按照某种规则进行抽取,是否会导致原始数据信息的丢失?因为前期设计不足或者后期需求变化导致数据的重复处理?面对上千亿,甚至上万亿的数据,...
快速排查SpringBoot Hikari数据库连接池连接泄露的方法,java.sql.SQLTransientConnectionException: HikariPool-1 - Connection is not available, request timed out after 30000ms.

很多 flink相关的书籍和网上的文章讲解如何对接 kafka时都是使用的 FlinkKafkaConsume,'org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer' is deprecated ,新版 flink应该使用 KafkaSource来对接 kafka。

使用 Zookeeper命令行修改 Kafka Cluster IDkafka.common.InconsistentClusterIdException: The Cluster ID q3r3fhGkTya24-s3dfvYUQ doesn't match stored clusterId Some(kguWHlzQQGmCHczV3u38vQ) in meta.properties.