logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

服务器挂了等用户报障?我用Prometheus搭了一套监控告警,服务器出状况第一时间通知我

服务器维护这件事,最让人难受的不是它挂了,而是不知道它挂了——等你从用户投诉里发现的时候,问题已经持续一两个小时了。这种情况出现几次之后,我就开始认真考虑搭一套监控告警系统。Prometheus + Node_Exporter + Alertmanager 这套组合在运维圈子里用得很多,核心原理也不复杂:Node_Exporter 负责把服务器 CPU、内存、磁盘这些指标暴露出来,Promethe

文章图片
#服务器#prometheus#php
Ubuntu服务器之间校时

systemd-timesyncd:Linux 系统内置轻量 SNTP 时间同步服务,timedatectl set-ntp true实际就是启用该服务做网络校时。重启系统时间同步服务,立刻重新连接 NTP 服务器、强制马上校准系统时间。这里 把NTP前的注释符号#去掉 并且,NTP=标准服务区的IP。以管理员权限,开启 Linux 系统的自动网络时间同步功能。这是 Linux 系统中用于自动同步

文章图片
#ubuntu#linux
Ansible 批量部署 Node Exporter:上百台机器的监控接入一次搞定

服务器多了之后,有一个很现实的问题:Prometheus 搭好了,但机器上没有 Exporter,指标采不到,监控就形同虚设。手动 SSH 逐台安装效率太低;写脚本批量跑,又没有回滚机制,环境差异还会导致各种奇怪的问题。Ansible 解决的是这件事本身:写一个 Playbook,定义好下载、解压、建用户、配 systemd 服务这些步骤,在被控机上幂等执行。同一套 Playbook,在十台机器上

文章图片
#ansible#github
《大模型驱动软件测试》| 软件工程3.0时代,大模型驱动测试实战指南

朱少民同济大学特聘教授、CCF杰出会员,曾任思科(中国)软件有限公司QA资深总监、多个IEEE 国际学术会议程序委员、《软件学报》《计算机学报》等审稿人。近三十年来一直从事软件测试、质量管理和软件工程等工作,先后获得多项省、部级科技进步奖,出版了二十多部著作和4本译作,代表作有《软件工程3.0》《全程软件测试》《软件测试方法和技术》《软件项目管理》等邢颖北京邮电大学教授、博士生导师,CCF高级会员

#软件工程
PostgreSQL主从流复制:数据高可用的经典方案,哪些场景真正适合用

cpolar是一款安全高效的内网穿透工具,无需公网IP或复杂配置,只需一条命令,即可将本地服务器、Web服务或任意端口映射到公网,让你随时随地远程访问内网应用,特别适合开发调试、远程运维和应急部署等场景。PostgreSQL流复制的价值在于用相对低的成本解决了数据高可用的基础问题,一主一从或者一主多从的架构能满足大多数中小业务的容灾需求。但有几个前提需要认清:异步复制在极端情况下可能丢数据,对数据

文章图片
#postgresql#数据库
日志分析这件事,有了 ELK 才能真正做到可搜索、可视化、可预警

日志这件事,大多数团队的态度是:平时不关心,出了问题才想起来去翻。但系统出现故障的时候,日志往往是唯一能告诉你哪里出了问题的东西——如果这时候你面对的是一堆文本文件或者散落在各个服务器上的输出,排查效率可想而知。

文章图片
#elk
BEV感知算法技术演进之路:从传感器标定到端到端模型应用

BEV感知技术通过统一3D空间表征解决了多摄像头系统的视角异构问题,实现了全局、结构化、时空一致的环境理解。其发展经历了从传统IPM变换到深度学习的演进,核心突破包括Lift-Splat-Shoot框架、BEVFormer的Transformer架构以及端到端VLA模型。关键技术挑战在于传感器标定和时间同步,新型学习式标定方法显著提升了精度。当前BEV感知已应用于量产自动驾驶系统,特斯拉、百度等企

文章图片
#算法
Prometheus + Node_Exporter + Alertmanager 监控告警系统:零基础部署与邮件推送指南

服务器跑着跑着就挂了,等用户报障才知道——这种事做运维的应该都经历过。监控和告警不是可选项,是基础设施的一部分。这篇文章解决一个具体问题:如何在 Linux 服务器上从零搭起一套完整的监控告警系统。Prometheus 负责采集指标和触发告警规则,Node_Exporter 负责暴露服务器 CPU、内存、磁盘等系统指标,Alertmanager 负责聚合告警和发送邮件通知,cpolar 把本地服务

文章图片
#prometheus
Prometheus + Node_Exporter + Alertmanager 监控告警系统:零基础部署与邮件推送指南

服务器跑着跑着就挂了,等用户报障才知道——这种事做运维的应该都经历过。监控和告警不是可选项,是基础设施的一部分。这篇文章解决一个具体问题:如何在 Linux 服务器上从零搭起一套完整的监控告警系统。Prometheus 负责采集指标和触发告警规则,Node_Exporter 负责暴露服务器 CPU、内存、磁盘等系统指标,Alertmanager 负责聚合告警和发送邮件通知,cpolar 把本地服务

文章图片
#prometheus
三维重建技术与实践:基于NeRF与3DGS

三维重建技术正在经历一次重要转变:从离线建模工具,到在线感知系统,再到具身智能基础设施。3DGS 只是这一过程中的关键节点,但其背后是一个更深层的趋势:世界模型正在从抽象走向可计算、可交互、可实时。对于希望系统掌握这一领域的读者,我们在《三维重建技术与实践:基于NeRF与3DGS》中,尝试从多视图几何、神经表示到工程实现进行完整梳理。这本书更关注:技术体系、原理理解、工程贯通。如果你正在思考空间智

文章图片
#3d
    共 28 条
  • 1
  • 2
  • 3
  • 请选择