logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据面试题总结

一 美团自我介绍一下?介绍一下最近的项目?目前在研究什么技术?如何判定一个表是事实表还是维度表?数据建模过程说一下?三范式知道吗,说一下?数据仓库模型建设可以使用范式建模吗,你是怎么看的?缓慢变化维处理方式?大宽表的优点与缺点?拉链表的实现逻辑说一下?Mapreduce执行流程说一下?Shulffle过程瓶颈在哪里,你会怎么解决?你刚说到会有小文件和数据倾斜,这个怎么处理?空值key加随机数是一种

#面试#大数据
was supplied but isn‘t a known config

代码如下val df: DataFrame = spark.readStream.format("kafka").option("kafka.bootstrap.servers", "mypc01:9092,mypc02:9092,mypc03:9092").option("subscribe", "cat")// 从头消费.option("staringOffsets", "earliest")

#spark#kafka
Kafka自动提交offset设置

auto.commit.interval.mskafka自动提交offset的频率,默认是5000ms,就是5s如果将enable.auto.commit设置为true,则消费者偏移量自动提交给Kafka的频率(以毫秒为单位)。The frequency in milliseconds that the consumer offsets areauto-committed to Kafka if

#kafka
clickhouse分布式查询

集群设置中的服务器大多是独立的。你可以在一个集群中的一个或多个服务器上创建一个 Distributed 表。Distributed 表本身并不存储数据,它只为集群的多个节点上的所有本地表提供一个«视图(view)»。当从 Distributed 表中进行 SELECT 时,它会重写该查询,根据负载平衡设置来选择远程节点,并将查询发送给节点。Distributed 表请求远程服务器处理查询,直到可以

#数据库#clickhouse
flink Table API 与SQL入门实战

Table API是流处理和批处理通用的关系型API,Table API可以基于流输入或者批输入来运行而不需要进行任何修改。Table API是SQL语言的超集并专门为Apache Flink设计的,Table API是Scala 和Java语言集成式的API。与常规SQL语言中将查询指定为字符串不同,Table API查询是以Java或Scala中的语言嵌入样式来定义的,具有IDE支持如:自动完

#flink
kafka启动后闪退

[root@mypc01 /]# free -htotalusedfreesharedbuff/cacheavailableMem:1.8G1.6G94M1.5M110M75MSwap:2.0G1.8G183Mcat kafka-server-start.sh

#kafka
kafka/producer.lua:168: attempt to perform arithme

[error] 23476#23476: *11538 lua entry thread aborted: runtime error:/usr/local/openresty/lualib/resty/kafka/producer.lua:168: attempt toperform arithmetic on local ‘index’ (a string value) stack trace

#kafka#openresty#nginx
kafka性能优化入门

当我们谈论 Kafka 性能调优时,需要考虑很少的配置参数。因此,为了提高性能,最重要的配置是控制磁盘刷新速率的配置。此外,我们可以根据组件划分这些配置。因此,让我们先谈谈Producer。因此,在生产者方面需要注意的最重要的配置是CompressionBatch sizeSync or Async而且,在消费者方面,重要的配置是Fetch size虽然,当我们考虑批处理大小时,总是会困惑多大ba

#kafka#batch
经典领导选举算法:Bully 算法

这是最常用的一种领导选举算法,它使用节点 ID的大小来选举新领导者。在所有活跃的节点中,选取节点 ID 最大或者最小的节点为主节点。以下采用“ID 越大优先级越高”的逻辑来解释算法:每个节点都会获得分配给它的唯一 ID。在选举期间,ID 最大的节点成为领导者。因为 ID 最大的节点“逼迫”其他节点接受它成为领导者,它也被称为君主制领导人选举:类似于各国王室中的领导人继承顺位,由顺位最高的皇室成员来

#分布式
kafka重复消费

原因根本原因:已经消费了数据,但是offset没提交。原因1:强行kill线程,导致消费后的数据,offset没有提交。原因2:设置offset为自动提交,关闭kafka时,如果在close之前,调用 consumer.unsubscribe() 则有可能部分offset没提交,下次重启会重复消费。原因3(重复消费最常见的原因):消费后的数据,当offset还没有提交时,partition就断开连

#kafka
    共 80 条
  • 1
  • 2
  • 3
  • 8
  • 请选择