logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

现代数据栈,谁主沉浮?

2022年已经没有人谈大数据这个概念,不是它失败了,恰恰是因为它成功了。成功技术的吊诡之处在于,它最终会被认为是理所当然,消失在背景音中。随着SaaS的普及和深入,数据驱动成为共识,云计算以及云端数据仓库的发展,逐渐有了现代数据技术栈这个新的数据生态体系。现代数据栈(MDS)主要是在欧美,确切的来讲是美国近几年出现的一个称呼,我们可以把它理解为一套新的数据生态体系。现代数据技术栈通常是指构成云原生

#big data#数据仓库#大数据
降低85%的gc发生率:ES的GC调优实践!

JVM G1GC(Garbage-First Garbage Collector)是Java虚拟机中的一种垃圾收集器,它以高吞吐量和可预测的停顿时间为目标,特别适合需要大内存和多核处理器的服务器应用。初始堆大小(-Xms)和最大堆大小(-Xmx)根据应用的内存需求设定这两个值,以确保应用在启动和运行过程中有足够的内存资源。通常建议将-Xms和-Xmx设置为相同的值,以减少运行时堆内存的动态调整,从

文章图片
#jvm#java#开发语言 +1
讨论:大数据上云的利与弊

其次,大数据上云可以降低成本。此外,云平台通常提供丰富的工具和服务,如数据分析、机器学习等,可以加速大数据项目的开发和部署。如果组织需要更高的灵活性和可扩展性,或者希望降低成本并加速项目开发,那么大数据上云是一个不错的选择。同时,K8s作为一种开源的容器编排系统,可以帮助组织更好地管理和调度大数据应用,提高系统的稳定性和可靠性。总之,大数据上云及采用K8s化部署是符合现代企业对敏捷性、成本控制和技

文章图片
#大数据#k8s#云计算 +1
大数据工程师的日常工作内容是干嘛?

随着数字化时代的来临,大数据已经成为了许多领域不可或缺的重要资源。而大数据工程师掌握着处理、分析和应用大数据的核心技能。那么,大数据工程师的日常工作内容到底是什么呢?一种是数据需求的开发与治理,另一种则是平台与基础系统研发建设。业务侧的日常工作内容广泛而多样(但由于平台的建设,很多业务就是写SQL数据采集与集成设计并实施数据采集方案,包括从各种源头(如传感器网络、日志文件、交易记录等)收集数据,可

文章图片
#大数据#程序人生#职场和发展
大数据组件之Hadoop图文介绍

这个生态最早被称作动物园:Hadoop生态之所以被称为“动物园”,是因为在其发展早期,围绕Hadoop形成了一个包含众多以动物名称命名的项目和组件的生态系统。这些项目通常都有各自的动物图标,比如Hadoop本身(大象)、Hive(蜂巢)、Pig(猪)、HBase(海狸)、ZooKeeper(动物园管理员)、Flume(鹈鹕)、Chukwa(鹤)、Avro(鸟)、Kafka(猿猴)、Mahout(大

文章图片
#大数据#hadoop#分布式
大数据组件之Flink:实时流处理的王者

Apache Flink是一个用于无界和有界数据流的开源流处理框架。它提供了一个统一的API来处理批量和流数据,使得开发者可以轻松地构建高效的实时数据处理应用。Flink的核心优势在于其低延迟、高吞吐量和容错性强的特点,适用于多种实时数据分析场景。Apache Flink作为一款革新的大数据处理引擎,凭借其对流处理与批处理的统一视图、卓越的实时性和容错性、以及对事件时间处理的深入支持,已在业界树立

文章图片
#大数据#flink
Spark 3.5.0 特性速览

Spark 3系列已经发布了第六版3.5.0,目前最新3.5.1。使用最广泛的大数据可扩展计算引擎。数以千计的公司,包括 80% 的财富 500 强企业,都在使用 Apache Spark。来自业界和学术界的 2000 多名开源项目贡献者。Apache Spark 3.5.0 是 3.x 系列中的第六个版本,该版本在开源社区的大力贡献下解决了超过 1,300 个 Jira 问题。

文章图片
#spark#大数据#分布式 +2
监控工具夜莺V6纯净部署

打不开夜莺页面,但是17000端口监听正常,一度去注册论坛搜索无果,最后发现是浏览器版本过低导致的,升级浏览器解决了;日志有个访问github version失败的报错?一开始访问不了页面有个这样的ERROR,但这个其实无所谓,内网本来就访问不了;VM安装后确认那里,官网把查询端口命令写错写成了12632;categraf默认配置的地址都是本地的,建议直接写成夜莺所在机器的实际IP,这样把cate

文章图片
#后端#云原生#linux +2
大数据组件之Flink:实时流处理的王者

Apache Flink是一个用于无界和有界数据流的开源流处理框架。它提供了一个统一的API来处理批量和流数据,使得开发者可以轻松地构建高效的实时数据处理应用。Flink的核心优势在于其低延迟、高吞吐量和容错性强的特点,适用于多种实时数据分析场景。Apache Flink作为一款革新的大数据处理引擎,凭借其对流处理与批处理的统一视图、卓越的实时性和容错性、以及对事件时间处理的深入支持,已在业界树立

文章图片
#大数据#flink
ES集群异常处理和进阶实践

2.x版本可API动态设置,在ES 5版本之后就不能动态设置这些参数了,通过修改ES主配置文件,然后重启ES生效。ES关于网络的配置参数丰富繁杂(它们都不是可动态更新的),ES双网分离场景的最佳实践是ES集群内部采用万兆-业务网,对外服务则双网都通,有管理及合规要求时按照要求设置单一网络。略微下调主分片个数使其均匀分布(10 -> 8),将索引的副本数从1减为0,相当于写入压力减少一半,至此现场问

#elasticsearch#大数据#java
到底了