作者:来自 Elastic Ori Shafir

探索 AutoOps 用于自管理 Elasticsearch。我们将展示它的价值、如何设置,以及它提供的洞察。

动手体验 Elasticsearch:浏览我们的示例 notebook,开启免费的 cloud 试用,或立即在本地机器上试用 Elastic。


介绍用于自管理 Elasticsearch 的 AutoOps,它让 Elasticsearch 更易管理。本篇博客不是传统的技术功能介绍,而是从 DevOps 工程师的角度展示它的价值、如何设置,以及它提供的洞察 —— 因为 AutoOps 的真正价值最好体现在日常大规模管理 Elasticsearch 的工作中。

第 1 章:背景 —— 大规模自管理的复杂性

操作任何大规模自管理的数据平台都可能很复杂。

有时查询速度快如闪电,有时数据摄取滞后,存储成本飙升。这基本上就像管理一个动物园,只不过动物会在凌晨 3 点给你发通知。

我的环境也不例外:多个集群、繁重的跨集群搜索(CCS),以及来自各部门的数百名用户。

我们使用 Stack Monitoring 进行日常运维。它提供图表和指标,但仍然需要大量专业知识和时间来将信息串联起来。诊断瓶颈或确定何时调整 shard 策略仍是一个手动且容易出错的过程。在许多情况下,问题往往在造成宕机、性能下降或意外存储飙升之前都不会被发现。

第 2 章:发现 AutoOps

随后宣布了消息:AutoOps 现在可用于自管理集群。

AutoOps 长期以来一直帮助 Elastic Cloud 用户更高效地管理部署。现在,这些好处也对任何在自己环境中运行 Elasticsearch 的人开放。

AutoOps 的亮点非常诱人:

  • 实时检测摄取瓶颈、shard 不平衡、慢查询等问题

  • 根据集群配置提供可执行的推荐

  • 资源优化洞察,提高效率并减少浪费开支

  • 通过安装轻量级 agent 简单设置 —— 无需额外基础设施

说实话,任何承诺 “无需额外基础设施” 的东西都能完全吸引我的注意。

第 3 章:五分钟完成设置(真的)

我给下午留了空,准备好咖啡,做好长时间设置的准备。但出乎意料,只花了五分钟:

  • 登录我的 Elastic Cloud 账户

  • 决定 agent 的运行位置(Docker、Linux 或 Kubernetes)

  • 输入集群 URL

  • 执行一个命令,安装轻量级 Metricbeat agent

就这样,我的集群就连接上了。

无需专门的监控集群。更重要的是,AutoOps 只发送指标,这意味着公司的数据仍保留在自管理环境中。

步骤 1:注册 Elastic Cloud

步骤 2:选择 Agent 的运行位置

步骤 3:输入你的 Elasticsearch 端点及认证方式

步骤 4:使用简单命令安装 Agent

就这样:几分钟后,AutoOps 就会开始显示洞察。

更多细节请参考 AutoOps 入门文档常见问题解答

第 4 章:初次洞察,首个胜利

几分钟内,AutoOps 就开始提供洞察,给出根因分析和清晰的修复步骤。

第一周的亮点包括:

  • 标记未附加任何 ILM 策略且过大的索引

  • 一个集群中有三个空节点,遗留自之前的维护任务

  • 一些节点超过水位线,且有几个索引缺少副本

  • 发现一个配置错误的模板

  • 精确定位一个长时间运行的搜索,并建议了取消的具体命令

AutoOps 检测到集群正在拒绝索引操作:

AutoOps 检测到一些索引未配置副本
在使用 AutoOps 之前,我们通常会为这些问题增加更多硬件。相反,AutoOps 直接指出了根本原因,修复只花了几分钟。

这一次,监控系统不仅仅是展示图表 —— 它告诉我如何解决问题。我开始想,AutoOps 是否也能帮我诊断家庭 Wi-Fi,让我终于不用再充当家里的 IT 部门……

AutoOps 监控 shard 大小,并在出现大量空 shard 时发出警报

第 5 章:看到我所看到的支持

第一次提交支持工单时,我意识到另一个好处:Elastic Support 工程师可以看到我正在查看的相同数据和推荐。

这让支持变成了协作。与其在工单中来回沟通,不如像与一位对 Elasticsearch 了如指掌的队友一起工作。

第 6 章:大规模运维

在使用 AutoOps 之前,扩展 Elasticsearch 感觉像是科学、直觉和经验的混合。

现在它是数据驱动的,具有清晰的可见性和推荐:

  • 可见资源使用情况,防止过度配置

  • 更智能的 shard 分配和分层推荐,实现性能平衡

  • 索引大小洞察,减少存储和硬件浪费

  • 跨多个集群更快的根因分析

第 7 章:众多 Cloud Connected Services 的开端

AutoOps 不只是一个独立工具。它是为自管理客户推出的新一系列 Cloud Connected Services 的第一款。Cloud Connect 使自管理集群能够使用 Elastic Cloud 服务,而无需在自身环境中安装和管理这些服务。功能会自动推出,让团队以更少的基础设施复杂性更快获得改进。

下一步:Elastic Inference Service (EIS)。

结语

管理大规模自管理部署不必让人不堪重负。

如果你希望操作更简单,也可以将部分工作负载迁移到 Elastic Cloud,无论是 Hosted 还是 Serverless,这是运行 Elasticsearch 最简单的方式。

如果你想继续自管理,可以将任何拥有自管理 Enterprise 许可证的集群连接到 Elastic Cloud 的 AutoOps

TLDR

运行大型自管理 Elasticsearch 集群复杂且耗时。AutoOps 提供实时问题检测、可执行的推荐,以及与 Elastic Support 的共享可见性 —— 无需管理额外基础设施。设置只需几分钟,洞察会立即显示。

原文:https://www.elastic.co/search-labs/blog/elastic-autoops-self-managed-elasticsearch

Logo

更多推荐