BigDataToAI 个人主页

@weixin_39636364

BigDataToAI

2022-07-25 17:13:54 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Java中的多线程基本介绍

在 Java 中，多线程是指同时执行两个或多个线程以最大限度地利用 CPU 的过程。 Java 中的线程是一个轻量级进程，只需要较少的资源即可创建和共享进程资源。多线程和多进程用于 Java 中的多任务处理，但我们更喜欢多线程而不是多进程。这是因为线程使用共享内存区域有助于节省内存，而且线程之间的内容切换比进程快一点。线程的生命周期线程在其生命周期中必须经历五种状态。此生命周期由 JVM（Ja

#java #开发语言 #后端

依托于亚马逊云科技的开发者学习体验

前言截止今年（2022年），亚马逊云已经走过了16个年头，并连续十一年被Gartner认可为云计算领导者。在EC2方面从最原始的单一实例到今天支持475+实例类型，而在服务类型方面更是发展并延伸到了各行各业。说起我与亚马逊云科技的渊源，还得从上大学的时候说起，从当年免费体验亚马逊云上的服务资源，到今天在亚马逊云上的持续学习。接下来我将从产品使用、参与创新大会、深入阅读技术资源等方面聊一聊在亚马逊云

#科技 #学习 #aws

influxdb 2.1.1安装指南

Influxdb作为时间序列数据库，用于处理高并发写入与查询负载。Influxdb旨在用作任何涉及大量时间戳数据的用例的后端存储，包括DevOp监控，应用指标程序，IoT传感器数据和数据实时分析。目前influxdb的最新版本为2.1.1，下述以该版本为例，介绍linux、docker等平台的安装方式。linux平台文件下载# amd64wget https://dl.influxdata.com

#时序数据库

k8s hudi表快速测试指南

如果任务名称为basic-example，那么还需要基于上述core-site.xml创建hadoop-config-basic-example configmap。重启rpcbind服务与nfs服务，nfs是一个RPC程序，使用它前，需要映射好端口，通过rpcbind设定。在default namespace使用core-site.xml创建configmap，core-site。/data1/

#kubernetes #容器 #云原生

Apache Pinot基本介绍

Pinot 是一个实时分布式 OLAP 数据存储，专为提供超低延迟分析而构建，即使在极高吞吐量下也是如此。它可以直接从流数据源（例如 Apache Kafka 和 Amazon Kinesis）中摄取，并使事件可用于即时查询。它还可以从 Hadoop HDFS、Amazon S3、Azure ADLS 和 Google Cloud Storage 等批处理数据源中摄取。系统的核心是列式存储，具

#apache #big data

kafka中的Sticky分区方法

消息在系统中传输所需的时间对 Apache Kafka® 等分布式系统的性能起着重要作用。在 Kafka 中，生产者的延迟通常定义为客户端生成的消息被 Kafka 确认所需的时间。正如一句老话所说，时间就是金钱，为了让系统运行得更快，最好尽可能减少延迟。当生产者能够更快地发送消息时，整个系统都会受益。每个 Kafka 主题包含一个或多个分区。当Kafka生产者向主题发送记录时，它需要决定将

#kafka #java #分布式

使用FLINK SQL从savepoint恢复hudi作业（flink 1.13）

Flink从1.13版本开始支持在SQL Client从savepoint恢复作业。flink-savepoint介绍接下来我们从Flink SQL Client构建一个mysql cdc数据经kafka入hudi数据湖的例子。整体流程如下：在上述第二步中，我们通过手工停止kafka→hudi的Flink任务，然后在Flink SQL Client从savepoint进行恢复。下述工作类似于Fli

#flink #sql #kafka

kafka log4j日志级别修改，一天生成一个日志文件

kafka的log4j日志默认配置中，有如下配置：log4j.appender.kafkaAppender=org.apache.log4j.DailyRollingFileAppenderlog4j.appender.kafkaAppender.DatePattern='.'yyyy-MM-dd-HH这有什么问题呢，虽然说我们用一天一次的滚动日志，但是我们配置的DataPattern为小时级别的

#kafka #分布式 #java

使用 Apache Hudi、Kafka、Hive 和 Debezium 构建开放数据湖

总览在接下来的文章中，我们将学习如何使用开源软件 (OSS) 在 AWS 上构建数据湖，包括 Red Hat 的 Debezium、Apache Kafka、Kafka Connect、Apache Hive、Apache Spark、Apache Hudi 和 Hudi DeltaStreamer。我们将使用完全托管的 AWS 服务来托管数据源、数据湖和开源工具。这些服务包括 Amazon

#kafka #apache #hive

paperswithcode发布第20期代码和论文时事通讯

paperswithcode是一个整理论文、代码、数据集等资源的网站，如其网址所述，papers with code！该专题通讯跟踪最新机器学习代码、论文、数据集，机器学习方法以及机器学习库，半个月左右更新一期，具有相当高的质量。本期主题科学机器学习的几项进展，零样本图像分类的最新结果，我们与 ACL 的合作使访问代码和数据集变得更加容易，几个新的研究数据集和工具，... 以及更多科学机器学习在本

#人工智能 #机器学习

共 20 条

请选择