引言

你有没有过这样的夜晚?凌晨 2 点,手机在枕头底下疯狂震动,是 Zabbix 的告警短信。你从床上弹起来,眼睛都睁不开,摸过电脑就开始 SSH 登录服务器。翻 3 个 G 的日志,查 CPU、内存、磁盘、进程,杀僵尸进程,重启服务,折腾到 4 点终于解决。第二天早上 9 点,你还要准时到公司,写故障报告,复盘,整改,优化监控。日复一日,年复一年。

我一直在想:这些重复性的工作,能不能让 AI 来帮忙?

于是有了这个项目 —— ITOps Agent Platform,一个我利用业余时间开发的运维自动化平台。它的核心想法很简单:把运维经验变成 AI Agent 的能力,让机器去巡检、去诊断、去处理告警,让人去做更有价值的事情。把它开源,不是为了出名,也不是为了赚钱,只是想找一群和我一样,热爱 IT 的同行,趁着 AI 的东风一起把这件事做成。

📌 这是个人项目,代码写得不够优雅,文档也不够完善,但它是真心实意想要解决运维人的痛点。 如果你也经历过那些熬夜排障的夜晚,也许你会理解我想做的事情。在 AI 的洪流中,每个岗位都不应该有技术傲娇,AI 不是来替代运维人的,而是来解放运维人的,把运维岗从重复的体力劳动中解脱出来,去做更有价值的架构设计和问题解决工作。

标签/关键词:网络运维、NetOps、AIOps、AI Agent、自动化巡检、开源项目、混合巡检

项目地址如下(国内建议访问 Gitee 或 GitCode)


一、ITOps Agent Platform 是什么?

ITOps Agent Platform 是一个基于大语言模型的企业级运维自动化平台,通过可视化工作流编排多个 AI Agent 协同工作,实现服务器巡检、告警处理、故障诊断、合规检查等运维任务的自动化。市面上不缺监控工具,不缺 AI 聊天机器人,但真正能把 AI Agent + 运维工作流 + 实际业务场景 结合起来的全开源项目,几乎没有。

核心特性

特性 说明
🤖 多 Agent 协作 9 个预设运维 Agent,覆盖告警、诊断、巡检、变更等场景
🔀 可视化工作流 拖拽式编排,支持串行/并行/条件分支
💻 Web SSH 终端 基于 xterm.js 的交互式远程终端
🖥️ 主机管理 多级分组树形结构、Excel 批量导入、SSH 自动信息采集
🔔 告警中心 Webhook 接收 Prometheus/Zabbix/通用告警,自动降噪
📚 知识库 + RAG 智能检索注入 LLM 上下文
️🗣️ AI Copilot 自然语言对话式运维助手
📈 数据大屏 实时运维数据可视化监控,支持投屏展示
🧠 支持本地 AI 模型 兼容 Ollama 等本地部署的大模型,数据不出域
🔒 企业级安全 AES-256-GCM 加密、JWT 认证、速率限制、审计日志

二、AlmaLinux 10 简介

AlmaLinux 是一个 1:1 兼容 RHEL 的企业级 Linux 发行版,由社区驱动、免费且开源。AlmaLinux 10 是该系列的最新稳定版本,基于 RHEL 10 构建,提供最新的安全特性和性能优化。选择 AlmaLinux 10 的原因:

✅ 长期支持:LTS 支持到 2029 年

✅ 企业级稳定性:经过严格测试和验证

✅ 完全免费:无需许可证费用

✅ 兼容 CentOS:原有 CentOS 用户可无缝迁移


三、准备工作

3.1 系统要求

项目 最低配置 推荐配置
CPU 1 核 2 核及以上
内存 1 GB 2 GB 及以上
磁盘 20 GB 20 GB 及以上
系统 AlmaLinux 10 AlmaLinux 10 最新版

3.2 检查系统版本

登录服务器后,执行以下命令确认系统版本(Centos7+按理说命令都是兼容的):

cat /etc/os-release

3.3 安装必要工具

AlmaLinux 10 已预装大部分工具,但需要确保 Docker 可用:

# 更新软件包
sudo dnf update -y

# 安装 Docker(如果尚未安装)
sudo dnf install -y docker
sudo systemctl enable docker
sudo systemctl start docker

# 验证 Docker和compose版本
docker --versiondocker compose version

3.4 配置防火墙

开放必要的端口:

# 开放前端端口(8080)
sudo firewall-cmd --permanent --add-port=8080/tcp

# 开放后端 API 端口(3001,可选,仅调试时需要)
sudo firewall-cmd --permanent --add-port=3001/tcp

# 重新加载防火墙规则
sudo firewall-cmd --reload

# 查看已开放的端口
sudo firewall-cmd --list-ports`

四、一键部署(推荐)

很多人说开源项目部署麻烦,我特意写了个部署脚本,复制下面一条命令直接运行。

curl -sL https://gitee.com/IT_Oline/itops-agent-platform/raw/main/deploy.sh -o deploy.sh && chmod +x deploy.sh && ./deploy.sh

📌 脚本支持 -y 参数自动确认提示(./deploy.sh -y),也可手动输入 y 确认。复制的时候注意浏览器硬编码,如果粘贴到终端执行报错就先粘贴到文本文件清除格式后再粘贴进终端执行! ☕ 喝杯咖啡的功夫(2 分钟)平台就跑起来了,脚本会自动完成:

  • 检查 Docker 环境

  • 从阿里云拉取最新镜像

  • 生成随机 JWT_SECRET

  • 启动前后端服务

  • 验证健康状态

🎉部署完成约 1-3 分钟,看到以下输出表示成功:

前端: http://你的服务器 IP:8080
健康检查:http://localhost:3001/health

五、部署方式二:Docker Compose 部署

如果你希望更精细地控制部署过程,可以使用 Docker Compose 手动部署。

5.1 获取项目代码

git clone https://github.com/qinshihu/itops-agent-platform.git
cd itops-agent-platform

5.2 配置环境变量(仅需配 JWT_SECRET)

cp .env.example .env
vim .env

编辑 .env,至少设置以下一项:

# JWT 密钥(生产环境必须,一键部署脚本已自动生成)
  JWT_SECRET=your-random-secure-secret-key-here

💡 重要说明

  • JWT_SECRET:不配置后端将无法启动。可用 openssl rand -hex 32 生成

  • AI API 密钥(DOUBAO_API_KEY / OPENAI_API_KEY)不需要在 .env 中配置!

  • AI 密钥可在登录后通过前端页面配置,见第 6.3 节

5.3 启动服务

# 拉取镜像并启动服务
docker compose up -d

# 查看服务状态
docker compose ps

# 查看后端日志
docker compose logs -f backend

# 查看前端日志
docker compose logs -f frontend

5.4 验证部署

# 检查后端健康状态
curl http://localhost:3001/health

# 检查前端是否可访问
curl -I http://localhost:8080

六、访问和使用

6.1 登录系统

浏览器访问:http://<服务器IP>:8080

6.2 默认管理员账号

项目
用户名 admin
密码 admin

️ 安全提示:首次登录后系统会强制要求修改密码,请务必及时修改!

6.3 配置 AI API 密钥(推荐方式:前端配置)

🎯 无需在部署时配置 .env!AI 密钥可直接在前端设置,保存到数据库,重启不丢失。

登录后,进入 设置 → AI 配置,填写以下信息:

配置项 说明
豆包 API(国内用户) 在 火山引擎控制台 获取密钥
OpenAI API 在 OpenAI 平台 获取密钥
根据实际填写模型ID 如 doubao-pro-32kgpt-4o 等

配置后立即可用,所有 AI Agent、Copilot、RAG 功能将自动启用。

💡 配置优先级:前端数据库配置 > .env 环境变量。建议直接在前端配置,更方便管理。


七、常见问题

Q1:Docker 服务启动失败

解决方案

# 查看 Docker 服务状态
sudo systemctl status docker

# 重启 Docker 服务
sudo systemctl restart docker

# 查看日志
sudo journalctl -u docker -f

Q2:端口被占用

解决方案

# 查看端口占用情况
sudo netstat -tlnp | grep 8080
sudo netstat -tlnp | grep 3001

# 修改 docker-compose.yml 中的端口映射
vim docker-compose.yml
# 将 8080:80 改为 8888:80

Q3:服务启动后无法访问

解决方案

# 检查防火墙是否开放端口
sudo firewall-cmd --list-ports

# 检查 SELinux 状态
getenforce

# 临时关闭 SELinux(仅用于调试)
sudo setenforce 0

# 查看服务日志
docker compose logs backend
docker compose logs frontend

Q4:AI 功能无法使用

解决方案

  1. 检查是否已在前端 设置 → AI 配置 中填写了正确的 API Key

  2. 确认服务器可以访问外部 API(豆包/OpenAI,国内用户推荐豆包)

  3. 查看后端日志中的错误信息:docker compose logs backend


八、服务管理

启动服务

docker compose up -d

停止服务

docker compose down

重启服务

docker compose restart

查看日志

# 查看实时日志
docker compose logs -f

# 查看后端日志
docker compose logs -f backend

# 查看前端日志
docker compose logs -f frontend

更新服务

# 拉取最新镜像
docker compose pull

# 重新构建并启动
docker compose up -d --build

九、项目截图预览

仪表盘

系统概览,展示服务器、告警、任务等核心指标。

数据大屏

多 Agent 协作

Web SSH 终端

基于 xterm.js 的交互式远程终端,支持实时输入输出、窗口自适应。

工作流编排

可视化拖拽式编辑器,支持串行/并行/条件分支。

告警中心

Webhook 接收 Prometheus/Zabbix/通用告警,自动降噪与工作流触发。

十、技术支持

GitHubhttps://github.com/qinshihu/itops-agent-platform

Giteehttps://gitee.com/IT_Oline/itops-agent-platform

GitCodehttps://gitcode.com/gcw_IM7aAihp/itops-agent-platform

项目官网https://www.zjzwfw.cloud/ITOpsAgentinfo

文档:项目仓库内有完整的中文文档

Issues:遇到问题可在 GitHub 提交 Issue


十一、一起把这件事做成!

先说实话:我一个人做不完

这个项目从我有想法到现在,已经写了大半年。作为一个运维出身的开发者,我最大的优势是知道运维人需要什么,但我不是全能,也不是一个优秀的高级研发工程师。

后端架构设计得不够好,前端代码写得很"运维风",测试覆盖低得可怜,文档更是惨不忍睹。

但我相信,这个项目值得被做得更好。

因为它解决的,是真真切切的每一个运维人的痛点。

这不是"又一个"开源项目

市面上不缺运维监控工具,不缺 AI 聊天机器人,不缺自动化平台。

但真正能把 AI Agent + 运维工作流 + 实际业务场景 结合在一起的开源项目,几乎没有。

为什么?因为做这件事需要两样东西:

  1. 懂运维 —— 知道告警怎么降噪、巡检怎么做、故障怎么定位

  2. 懂 AI —— 知道怎么让 Agent 理解运维上下文、怎么做 RAG、怎么编排协作

我恰好两样都沾一点边,但两样都不精。

所以我需要你!

你能在这里做什么

很多人看到"开源贡献"就觉得:我不是大神,我写不了代码,我参与不了。

错!

我们需要各种各样的人,不管你是什么水平,都能找到适合你的任务:

🟢 零门槛(5 分钟就能完成)
  • 给项目点个 Star,让更多人看到

  • 转发这篇文章给你身边的运维朋友

  • 去 GitHub 提一个 Issue,哪怕只是说"这个按钮不好用"

  • 哪怕改个错别字都是贡献。

🟡 入门级(会基础 Git 就能做)
  • 整理文档,统一格式

  • 翻译 README,让国外的运维也能用上

  • 写一篇部署教程或者使用心得

  • 优化一下前端的按钮样式

🟠 进阶级(有 1 年以上开发 / 运维经验)
  • 修复一个小 Bug

  • 给主机管理加一个批量删除功能

  • 优化 Docker 镜像,让它更小更快

  • 写一个新的 Agent 插件(比如 MySQL 巡检)

🔴 挑战级(想证明自己)
  • 把 SQLite 换成 PostgreSQL,让系统真正能上生产

  • 重构路由模块,让代码更干净、更可维护

  • 设计多 Agent 协作策略,让它们配合得更好

  • 做性能测试,找到瓶颈在哪里

️⏫ AI编程工具使用者(Cursor/Copilot/Windsurf等)
  • 用 AI 辅助阅读代码,快速理解项目结构

  • 让 AI 帮你生成单元测试,提升测试覆盖率

  • 用 AI 重构老旧组件,消灭重复代码

  • 让 AI 帮你写技术文档、补全注释、翻译国际化

  • 尝试用 AI 自动生成新的 Agent 插件或前端页面

你不会写代码没关系,会用 AI 编程工具就行。现在正是 AI 编程的浪潮期、在 AI 的洪流中,每个岗位都不应该有技术傲娇,这个项目就是最好的练兵场。

你会得到什么

💸 不是钱。  这是一个 MIT 协议的开源项目,任何人都可以免费使用、修改、商用。

✅ 一个真正能写进简历的项目

不是 TODO List,不是博客系统,是一个有实际业务价值的生产级平台。现在很多公司都在招 AIOps 相关的岗位,这个项目的贡献经历,比你面试时说 10 个"精通"都管用。

✅ 一次真实的 AI 工程实践

你会亲手接触到 Agent 编排、RAG、AI多模型集成这些现在最火的技术。比你看 100 篇教程、买 10 门课都有用。

✅ 一群志同道合的朋友

我们已经有了一个小群,里面有来自阿里、腾讯、字节的运维,有 AI 工程师,有前端后端开发。以后跳槽、找项目、解决问题,都有人帮你。

✅ 改变一件事的机会

你写的每一行代码,都会被成千上万的运维人使用。你会帮他们少熬夜,少加班,多陪陪家人。这种成就感,是多少钱都买不来的。

现在加入,你就是核心创始人

项目刚开源,正是加入的最好时机。

现在参与的每一个人,都会被列入项目的核心贡献者名单。等项目做大了,你就是那个"从 0 到 1"的人,而不是后来的打酱油的。

常见疑问

❓ 我不会 AI 能参与吗?

当然可以!90% 的工作都是常规的运维和开发工作,AI 部分有专门的人负责。

❓ 我时间不多能参与吗?

完全没问题!哪怕每周只花 1 小时,改一个错别字,提一个 Issue,都是贡献。

❓ 这个项目会不会半途而废?

我已经投入了大半年的心血,自己也在不断优化完善。而且现在已经有很多人关注了,我们会一直维护下去。

❓ 怎么加入我们?

  1. 先去 GitHub/Gitee 给项目点个⭐Star

  2. 跑一次一键部署脚本,看看平台长什么样

  3. 去 GitHub 提一个 Issue,说说你的想法


🏳️‍🌈 一个人可以走得很快,但一群人可以走得很远;让我们一起,把运维人解放出来!

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐