logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据OLAP系统 (2) 开源组件篇

开源大数据OLAP组件,可以分为MOLAP和ROLAP两类。ROLAP中又可细分为MPP数据库和SQL引擎两类。对于SQL引擎又可以再细分为基于MPP架构的SQL引擎和基于通用计算框架的SQL引擎:MOLAP一般对数据存储有优化,并且进行部分预计算,因此查询性能最高。但通常对查询灵活性有限制。MPP数据库是个完整的数据库,通常数据需要导入其中才能完成OLAP功能。MPP数据库在数据入库时对数据分布

[flink总结]什么是flink背压 ,有什么危害? 如何解决flink背压?flink如何保证端到端一致性?

在输出结果到外部系统时,首先进行预提交,然后在提交成功之后再进行确认。1 Flink的背压(Backpressure)是指当下游算子处理数据的速度不及上游算子传递数据的速度时,会导致数据始终堆积在网络层或内存中,会导致系统效率下降,出现背压现象。检查点(Checkpoint)机制:通过在流式数据处理中的不同位置设定检查点,能够记录系统的状态,当有故障产生时,系统可以从最近的检查点恢复,保证了一致性

文章图片
#大数据#flink#网络 +2
5分钟了解大数据

大数据的基本概念大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强大的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费大量的时间和金钱。大数据主要解决两个主要问题海量数据的存储 : 例如分布式存储文件系统 : HDFS海

#hadoop
数据湖之iceberg系列(六)-flink处理数据

1 集群搭建安装flink集群 ,启动flink集群!bin/start-cluster.sh将flink-run...jar上传到flink的lib目录下启动flink-sqlbin/sql-client.sh embedded -j ./lib/iceberg-flink-runtime-0.10.0.jar shell2 快速入门CREATE CATALOG hive_catalog WIT

数据湖之iceberg系列(五)-hive处理iceberg中的数据

1 将iceberg-hive-runtime-0.10.0.jar包添加到hive的lib包下 , 或者是在客户端使用add jar 添加到项目中2 设置参数 / 或者在hive-site.xml中设置3 读取catalog为hadoop的表中的数据 , 需要完成hive表和hadoop表的映射SET engine.hive.enabled=true;SET iceberg.engine.hiv

#hive#hadoop#big data
数据湖之iceberg系列(五)-Spark实时处理数据

1 接收网络数据 将数据实时写入到iceberg表中开启nc 服务用于模拟数据输出nc -lk 99992 spark实时读取数据将数据写入到iceberg表中// 获取spark对象val spark = SparkSession.builder().config("spark.sql.catalog.hadoop_prod.type", "hadoop") // 设置数据源类别为hadoop.

[大数据面试必备]-大数据真实简历

大数据真实简历大数据真实简历大数据真实简历大数据真实简历大数据真实简历大数据真实简历大数据真实简历大数据真实简历

文章图片
#面试#职场和发展#大数据 +2
[大数据面试必备]-大数据真实简历

大数据简历大数据简历大数据简历大数据简历大数据简历大数据简历大数据简历大数据简历[大数据简历]

文章图片
#大数据#面试#职场和发展 +1
数据湖之iceberg系列(二)iceberg简介

1 Iceberg简介Apache Iceberg is an open table format for huge analytic datasets.Iceberg adds tables to Presto and Spark that use a high-performance format that works just like a SQL table.设计初衷是:以类似于SQL的形

#hive#big data#hadoop
    共 44 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择