宝哥大数据个人主页

@wuxintdrh

宝哥大数据

2022-09-29 16:56:29 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

flink+kafka 如何保证精准一次

在Flink与Kafka的集成中，要实现精确一次（exactly-once）处理语义，需要确保在发生故障时，无论是数据的重复还是丢失都不会发生。

#flink #kafka

数据科学家 vs 数据工程师 vs 统计学家

文章目录一、数据科学家与数据工程师与统计学家之间的区别1.1、数据科学家的发展领域1.2、数据工程师及其演变1.2.1、数据工程师的主要职责1.2.2、成为成功的数据科学家所需的技能1.2.2.1、数据科学家需要具备基本工具方面的知识1.2.2.2、数据科学家需要对基本统计有正确的理解1.2.2.1、一个好的数据科学家必须了解机器学习的各个方面一、数据科学家与数据工程师与统计学家

#人工智能 #自然语言处理 #big data

ES数据库重建索引——Reindex(数据迁移)

一、应用背景：1、当你的数据量过大，而你的索引最初创建的分片数量不足，导致数据入库较慢的情况，此时需要扩大分片的数量，此时可以尝试使用Reindex。2、当数据的mapping需要修改，但是大量的数据已经导入到索引中了，重新导入数据到新的索引太耗时；但是在ES中，一个字段的mapping在定义并且导入数据之后是不能再修改的，所以这种情况下也可以考虑尝试使用Reindex。二、...

spark入hbase版本问题（未解决）

集群 spark-2.3.2, hbase-2.0.2Exception in thread "main" java.lang.NullPointerExceptionat org.apache.hadoop.hbase.security.UserProvider.instantiate(UserProvider.java:122)at org.apache.hadoop.hbase.c...

Ambari上spark2.1.1的Spark History ServerUI无法显示appliation信息（已解决）

配置spark-default.conf如下spark.driver.extraLibraryPath /usr/hdp/current/hadoop-client/lib/native:/usr/hdp/current/hadoop-client/lib/native/Linux-amd64-64spark.eventLog.dir hdfs:///spark2-history/spar...

spark向mysql数据库读写数据

package com.chb.shopanalysis;import java.util.Properties;import org.apache.log4j.Logger;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import org.apache.sp...

spark目录导图

一、介绍1.1、RDD介绍二、安装三、算子四、简单案例五、整合六、问题七、总结

#spark #大数据 #scala

spark的排错和调优

1、错误出现scala版本冲突问题The version of scala library found in the build path of TestSpark (2.10.5) is prior to the one provided by scala IDE (2.11.7). Setting a Scala Installation Choice to match.TestSpar

#spark

hadoop2.5.2学习14--MR之协同过滤天猫推荐算法实现01

一、代码步骤：1、去重2、获取所有用户的喜欢矩阵：3、获得所有物品之间的同现矩阵4、两个矩阵相乘得到三维矩阵5、三维矩阵的数据相加获得所有用户对所有物品的推荐值（二维矩阵）6、按照推荐值降序排序。二、代码实现2.1、第一个mapreduce, 实现去重由于原始数据可能有还坏数据，我们需要进行去重。第一个mapreduce实现去重

#hadoop

数据仓库面试题集&离线&实时

1、2、Flink提交方式，使用pre-job还是yarn-session模式，好处？

#数据仓库 #spark #大数据

共 58 条

请选择