SpringBoot使用自定义actuator健康检查完成服务预热、微服务依赖检查

无论在测试中还是在线上，我们都会发现在java服务刚开始启动之后，第一个请求会比正常的请求响应时间慢很多，一般会到达几百ms乃至1秒。在微服务架构中，实例与实例之间存在依赖关系，当A实例依赖B实例，两个实例同时启动时，A实例必需要等B实例就绪并可用后，才可对外提供服务。k8s的就绪探针和存活探针

隔壁老易

8000人浏览 · 2022-11-29 15:25:29

隔壁老易 · 2022-11-29 15:25:29 发布

背景

无论在测试中还是在线上，我们都会发现在java服务刚开始启动之后，第一个请求会比正常的请求响应时间慢很多，一般会到达几百ms乃至1秒。
在微服务架构中，实例与实例之间存在依赖关系，当A实例依赖B实例，两个实例同时启动时，A实例必需要等B实例就绪并可用后，才可对外提供服务。
如果我们的调用方服务设置了超时时间，那么在被调用方服务刚启动时，会有极大概率达到超时时间限制，从而发生超时异常。
极端情况：当流量非常大的时候，可能会发现，服务一启动，因为响应时间较慢，立刻被高流量打死，而且永远也启动不起来，甚至会造成整个系统的雪崩。
本文针对这种情况，阐述了原理，并调研了目前业界的预热方案。

预热方案

预热方案有目前以下手段：

通过流量控制来进行预热：
1.1. 利用网关的流量控制功能，按照新服务上线时间，给与不同的访问权重，使得服务能够逐渐达到正常访问的热度。
1.2. 使用sentinel等组件进行warmup限流，在服务上线的时候，将过高的流量直接拦截掉。
1.3. spring的ribbon组件策略改造，与网关流量控制策略相同。
在服务启动后，可以正常访问前，让服务自己预热
2.1. 服务开发者进行编码，启动后，初始化模块自己遍历一遍重要的访问接口
2.2. 利用测试工具组件（Java Microbenchmark Harness（JMH）），启动后遍历访问接口
2.3. 使用阿里的开源项目龙井，替换jdk，在服务启动时自动加载该加载的类。阿里龙井使用手册
发布系统中进行配置访问url列表，由发布系统预热
每个服务的开发者自己进行评估，列出需要预热的url，将这个url列表存入发布系统，由发布系统调用health之前，由curl调用一遍。

当前使用方案

方案一在流量过高的时候本身就是必须存在的，但是目前我们的sentinel还在建设中
方案二和方案三需要微服务实例能够感知到服务是否已启动完成，如果感知不到，预热就无法进行了

为什么选择actuator而不是自定义endpoint?

采用Starter POM简化Maven的配置
大量采用约定简化Spring的配置
内嵌Tomcat、Jetty或Undertow
提供产品级的运行监控Actuator功能

什么是springboot actuator?
由此可见，actuator是springboot设计的精髓之一，而springboot或者jvm预热属于应用个性化功能，actuator目前的版本包括3.0的版本都没有照顾到。
另外，说到预热少不了就绪探针和存活探针：

就绪探针和存活探针

k8s

当使用 Kubernetes 作为我们编排平台时，每个节点中的 kubelet 负责保持该节点中的 pod 健康。
例如，有时应用程序可能需要一点时间才能接受请求。 kubelet 可以确保应用程序仅在准备就绪时接收请求。此外，如果 Pod 的主进程因任何原因崩溃，kubelet 将重新启动容器。
为了履行这些职责，Kubernetes 有两个探针：活性探针和就绪探针。
kubelet 将使用就绪探针来确定应用程序何时准备好接受请求。更具体地说，当 pod 的所有容器都准备就绪时，它就准备好了。
类似地，kubelet 可以通过活性探针检查 pod 是否还活着。基本上，活性探针可以帮助 kubelet 知道何时应该重新启动容器。

熟悉了这些概念，看看 Spring Boot 集成是如何工作的。

springboot

从 Spring Boot 2.3 开始，LivenessStateHealthIndicator 和 ReadinessStateHealthIndicator 类将公开应用程序的活跃度和就绪状态。当将应用程序部署到 Kubernetes 时，Spring Boot 会自动注册这些健康指标。

因此，可以分别使用 /actuator/health/liveness 和 /actuator/health/readiness 端点作为liveness 和 readiness 探针。

例如，以将这些添加到 pod 定义中，以将活性探针配置为 HTTP GET 请求：

livenessProbe:
  httpGet:
    path: /actuator/health/liveness
    port: 8080
    initialDelaySeconds: 3
    periodSeconds: 3

如果使用 Spring Boot 2.3.2 +，可以使用以下属性来启用 liveness 和 readiness 探针：

management:
  endpoint:
    health:
      probes:
        enabled: true
  health:
    livenessstate:
      enabled: true
    readinessstate:
      enabled: true

原理

Spring Boot 使用两个枚举来封装不同的就绪和活跃状态。对于就绪状态，有一个名为 ReadinessState 的枚举，具有以下值：

ACCEPTING_TRAFFIC 状态表示应用程序已准备好接受流量
REFUSING_TRAFFIC 状态意味着应用程序还不愿意接受任何请求

同样，LivenessState 枚举使用两个值表示应用程序的活跃状态：

CORRECT 值表示应用程序正在运行并且其内部状态是正确的
另一方面，BROKEN 值意味着应用程序运行时出现了一些致命故障

以下是 Spring 中应用程序生命周期事件方面的就绪和活跃状态如何变化：

注册监听器和初始化器
准备环境
准备应用程序上下文
加载 bean 定义
将活动状态更改为 CORRECT
调用应用程序和命令行运行程序
将就绪状态更改为 ACCEPTING_TRAFFIC
一旦应用程序启动并运行，（和 Spring 本身）就可以通过发布适当的 AvailabilityChangeEvents 来更改这些状态。

我们的方案

其实有了readiness就绪探针，我们就可以完成我们的预热工作，而Liveness存活探针用于k8s检测实例是否存活，这里有一个坑点：
不能使用/actuator/health来做存活探针！
因为/health进行严格检查springboot各项组件服务，比如邮件服务、数据库服务、mq服务等，当发现有一个组件处于非正常状态，其返回的内容会由{"status": "up"}变为{"status": "down"}，从而导致Liveness探针失效，而有些情况下，还抛出异常，在特定情况下某些服务不正常属于正常现象，例如：邮件服务。

ps: 我们在一次邮件服务迁移的过程中，使用Liveness探针频繁访问/health，触发了springboot连续抛出堆栈信息导致服务直接宕机，非常恐怖，如果没有做到宕机快照，会导致查问题无从下手

在actuator/health中自定义健康探针

由于预热可以看做实例能否正常提供服务的健康指标，所以我采用了rediness探针，实例代码如下：

public class SeaReadinessHealthIndicator extends AvailabilityStateHealthIndicator {
    private Integer isChecking = 0;
	private StringBuffer notCompleteExecuteClassBuffer = new StringBuffer();
	
	@Override
	protected void doHealthCheck(Health.Builder builder) {
		switch (isChecking.get()) {
			case 1:
				builder.down().withDetail("message", "instance is starting.").build();
				return;
			case 2:
				builder.outOfService().withDetail("message", String.format("some service start error. they are: %s", notCompleteExecuteClassBuffer.toString())).build();
				return;
			case 200:
				builder.up().build();
				return;
		}
	}
	@Override
	protected AvailabilityState getState(ApplicationAvailability applicationAvailability) {
		return applicationAvailability.getReadinessState();
	}
}

这么设置后，访问/actuator/health/seaReadiness，发现无法访问，再检查/actuator/health目录，发现有一个"cn.xxx.seaReadiness"的状态是{"status":"UP"}，原来actuator health的规则是SeaReadinessHealthIndicator，HealthIndicator之前的默认为名称。如果是加入扫描的方式就是这样的，但我现在是用starter的方式进行发布的。
如果我要实现/actuator/health/seaReadiness访问怎么做呢？
在starter扫描的类名中，加上以下别名即可：

@Component("seaReadiness")
public class SeaReadinessHealthIndicator extends AvailabilityStateHealthIndicator

安全考量

早期我们项目在几次生产过程中，为了安全，已将acuator目录做了禁止访问处理，只允许在k8s内部才能进行访问，所以可以考虑不用上spring security来对acuator目录进行保护。

参考资料：
https://blog.csdn.net/qq_39149842/article/details/118995017
https://mobilabsolutions.com/2020/04/a-proper-kubernetes-readiness-probe-with-spring-boot-actuator/
https://www.jdon.com/57471
https://mobilabsolutions.com/2020/04/a-proper-kubernetes-readiness-probe-with-spring-boot-actuator/
https://blog.51cto.com/u_11418075/4870067
https://kubesphere.io/zh/blogs/kubesphere-devops-java-microservice/
https://www.kancloud.cn/java-jdxia/java/1388077#health_73
https://blog.csdn.net/weixin_45503796/article/details/119246564
https://www.jianshu.com/p/ac0566c28562
https://spring.io/blog/2020/03/25/liveness-and-readiness-probes-with-spring-boot
https://blog.csdn.net/JHIII/article/details/126601858
https://blog.csdn.net/jiang18238032891/article/details/109745682
https://blog.csdn.net/weixin_43790623/article/details/104287216
https://blog.csdn.net/weixin_51291483/article/details/126596612