星空下的那个人影个人主页

@sb_jb

星空下的那个人影

2022-09-29 17:41:09 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

机器学习第001篇之KNN最邻近分类算法

一、KNN算法的核心思想：寻找最近的k个数据，推测新数据的分类二、KNN算法的原理：计算测量数据与各个训练数据之间的距离；按照距离的递增关系进行排序；选取前k个距离最小的点；对这前k个点距离取加权平均数；三、计算距离量度方式包括：样本空间内的两个点之间的距离量度表示两个样本点之间的相似程度：距离越短，表示相似程度越高；反之，相似程度越低。量度空间中点的距离，...

hadoop常用的端口号

dfs.namenode.http-address:50070dfs.datanode.http-address:50075SecondaryNamenode:50090dfs.datanode.address:50090fs.defaultFS:8020或者9000yarn.resourcemanager.webapp.address:8088历史服务器web访问端口:19888

数据倾斜

拉链表

数据仓库分哪些层

数据仓库

要确定 Kafka 的消息是否丢失或重复，从两个方面分析入手：消息发送和消息消费。消息发送Kafka 消息发送有两种方式：同步和异步，默认是同步方式，可通过 producer.type 属性进行配置。Kafka 通过配置 request.required.acks 属性来确认消息的生产：0——表示不进行消息接收是否成功的确认；1——表示当 Leader 接收成功时确认；-1——表示 Leader

#kafka

Kafka消息数据积压，Kafka消费能力不足怎么处理？

如果是Kafka消费能力不足，则可以考虑增加Topic的分区数，并且同时提升消费组的消费者数量，消费者数=分区数；如果是下游的数据处理不及时，提高每批次拉取的数量。批次拉取数量太少，即拉取数量/处理时间<生产速度，使处理的数据小于生产的数据，也会造成数据挤压。参考：https://www.cnblogs.com/lidabo/p/13671557.html...

#hadoop

kafka如何确保数据不丢失？

kafka防止数据丢失

#kafka

到底了