logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

filebeat原理架构

‌总结‌:Filebeat 通过 Harvester 实时跟踪文件变化、Registry 确保状态持久化、Libbeat 实现高效聚合与背压控制,提供低资源占用的可靠日志采集方案,是 ELK/EFK 体系中核心的轻量级日志收集器。日志源 → Filebeat(采集) → Kafka(缓冲) → Logstash(过滤) → Elasticsearch(存储) → Kibana(可视化)‌职责‌:逐

#架构
为什么elasticsearch配置文件JVM配置31G最佳

‌预留安全边界‌:略低于32GB(如31GB)以规避操作系统或JVM自身内存计算误差导致实际堆内存越界。固定初始堆与最大堆‌:设置Xms与Xmx相同值,避免堆内存动态调整引发的资源争夺和GC停顿。

#elasticsearch#jvm#大数据
flink实时流处理中常用的数据处理函数

数据清洗:用户输入的数据(如姓名、地址)前后常常带有无意识输入的空格,TRIM 可以标准化这些数据,避免因多余空格导致查询失败或数据不一致。-- 结果:'User123'(在某些数据库中使用 CONCAT 更佳)-- 结果:'Hello World'-- 结果:'Hello World'-- 结果:'Hello World'功能: 移除字符串开头和/或结尾的空白字符(如空格、制表符、换行符)或其他

#flink#大数据
Elasticsearch 如果保证读写一致

‌活跃分片等待(wait_for_active_shards)‌指定写操作前需可用的最小分片数(如设为 all 需全部在线),避免写入不可用分片。新版本推荐使用 if_seq_no(序列号)和 if_primary_term(主分片任期)替代 _version,精确控制基于最新状态的更新。quorum(默认):多数分片(主+副本)确认成功,公式:int( (主分片数 + 副本数) / 2 ) +

#大数据#elasticsearch#搜索引擎
ElasticSearch重启之后shard未分配问题的解决

注意‌:生产环境强制分配分片前需确认数据备份状态,优先通过_cat/shards和_cluster/allocation/explain确认底层原因。若无法确定故障根源,建议复制数据重建索引而非直接操作分片分配。分片未分配原因为low disk watermark,通过GET _cat/allocation?v可查看节点磁盘使用率。# 显示具体分片未分配的reason(如ALLOCATION_FA

文章图片
#elasticsearch
4A架构解析:业务、数据、应用、技术架构的区别与联系

在数字化转型的浪潮中,4A架构如同建筑的蓝图,为企业从业务愿景到技术落地提供了完整的规划框架,是避免"技术债"和"重复造轮子"的关键。理解并实践4A架构,能够让企业的数字化转型从"被动响应"变为"主动引领",在激烈的市场竞争中构建持续的核心竞争力。架构的本质不是限制,而是赋能——好的架构应该在规范性的基础上,为业务创新和技术演进提供最大的灵活性。数据架构关注企业的数据资产,确保数据在正确的时间、以

linux运维故障排查

主要介绍各种问题定位的工具分析问题的方法论What-现象是什么样的When-什么时候发生Why-为什么会发生Where-哪个地方发生的问题How much-耗费了多少资源How to do-怎么解决问题1.cpu针对应用程序,我们通常关注的是内核CPU调度器功能和性能。线程的状态分析主要是分析线程的时间用在什么地方,而线程状态的分类一般分为:on-CPU:执行中,执行中的时间通常又分为用户态时间u

#linux
Doris 元数据恢复步骤

恢复后检查 FE 的 image/VERSION 中 clusterId 是否与 BE 一致,不一致需手动修改(避免 BE 注册失败)。生产环境部署 ‌3 FE 节点‌(1 Follower + 2 Followers/Observers)提升高可用性。主节点按‌单节点恢复流程‌操作(启用 metadata_failure_recovery 并重启)。元数据版本‌不可向后兼容‌,高版本恢复后禁止回

文章图片
#数据库
数据分析思维与实战

互联网人手必备的数据分析技巧学习收获:1.掌握BAT不同业务下数据分析基本技能;2.还原电商、金融、游戏等领域实战场景;3.搭建流量分析、竞品分析、用户增长等数据模型;4.成为高薪数据分析师...

开源大数据管理平台

包括 Hadoop、Hive、HBase、Pig、Spark 等等。同时,Apache Bigtop 还提供了一些示例和文档,帮助用户更好地理解和使用这些组件。Apache Bigtop 是一个开源项目,目的是提供一套完整的开源软件栈,用于构建、测试和部署大数据平台。目前两大开源大数据平台CDH和HDP已闭源,国内也涌现出了一些开源的大数据平台,比如:apache bigtop 和。新一代云原生大

文章图片
#开源#大数据
    共 18 条
  • 1
  • 2
  • 请选择