微服务的重试和幂等

系统架构优化-重试和幂等摘要重试常见的重试场景幂等页面和API 幂等实现定时任务幂等mq的幂等消费微服务框架遗留问题摘要重试是一种保障业务运行的容错机制，比如页面查询、数据导出等业务场景，如果某个微服务出现异常，可以将请求动态路由到其他的服务。但是对于写的业务场景，就会导致很多问题，比如重复订购，重复生成记录，甚至重复扣费。本文重点讨论如果避免写的重试重试常见的重试场景（1）页面操作...

October-

4788人浏览 · 2018-11-06 19:06:08

October- · 2018-11-06 19:06:08 发布

微服务的重试和幂等

1、摘要
2、重试
- 2.1、常见的重试场景
3、幂等
4、遗留问题

1、摘要

重试是一种保障业务运行的容错机制，比如页面查询、数据导出等业务场景，如果某个微服务出现异常，可以将请求动态路由到其他的服务。但是对于写的业务场景，就会导致很多问题，比如重复订购，重复生成记录，甚至重复扣费。本文重点讨论如果避免写的重试

2、重试

2.1、常见的重试场景

在这里插入图片描述

（1）页面操作
重复点击添加或者修改按钮
重复导入同一批数据,如Excel
页面刷新导致重复提交

（2）定时任务
定时任务Cron表达式设置有问题，导致短时间内重复处理同一批数据。
定时任务中某个分片失败了，重复执行。

（3）开放API
http超时重发
异常重发
黑客等恶意重复发送同一消息

（4）消息队列
业务异常导致重复发送同一条到同一个队列。
消息处理失败后放到Retry队列，然后重复消费。
死信队列里面的消息重复消费。

（5）微服务框架
容错机制选用不当比如upate 和 insert 接口选用 faileover，导致超时重发多次请求。

上面的场景有可能组合到一起出现，如下图：
在这里插入图片描述
系统如果不对重试做控制，在极端情况下，会导致系统并发量瞬间暴增，出现大量脏数据甚至系统瘫痪。

3、幂等

幂等设计是解决写重试问题重要手段。下面针对各种场景以及我们系统现实情况，分析如何实现幂等

3.1、页面和API 幂等实现

首先应该遵循restfull 接口设计规范，‘写’请求，最好是对单一资源的操作，如果是批量操作，必须有批次号，以及详细的操作记录。请求消息体中携带消息ID，（消息的完整性和安全性可以通过hash算法保证，不在本次讨论范围内）。在控制层,针对消息ID做重复校验，这样可以做到技术上的幂等。
在这里插入图片描述

3.2、定时任务幂等

很多时候会设置一个唯一任务ID，业务层对任务ID做唯一性校验,但这可能起不了太大作用，因为job 是重复执行的，每次都会生成新的任务ID。这时只能根据业务特点，针对特定的业务类型，添加业务操作日志。比如定时为某些用户下发订单的场景，可以将用户订购信息添加到单独日志表中或者redis中，且这些日志信息应该是跟业务无关的，只用来做防止重复订购的校验，使用完后可以定时清理掉，或者自动失效，避免堆积太多的垃圾数据。消息的结构可以包括：用户标识、业务标识、操作时间、操作结果，其中业务类型就表示这是定制化的重复校验，用来保证业务上的幂等。
在这里插入图片描述

3.3、mq的幂等消费

防止消息重复消费的设计方式跟定时任务幂等的设计方式一样，只能根据特定的业务类型，做到业务逻辑上的幂等设计。

3.4、微服务架构

要谨慎的选择重试策略和集群方式。
对于系统间调用链比较短的场景，可以取消重试，然后整个数据流向设计成快速失败的（failefast），比如我们的系统，目前最长的业务流程也就是调用5个功能模块（微服务）。
但是必须有其他的容错机制，这里容错机制不仅仅是微服务架构上的容错，也是业务流程整体设计上的容错，例如：每个请求都带有请求日志，记录请求状态和时间。对于异常的请求，可以手动重试，也可以自动重试，或者将整个过程回滚，这就是业务流程设计上的容错。微服务架构容错机制则是重试并添加熔断器，重试可以用前提是所有接口都是幂等的，但是熔断器也是个鸡肋，很难自动控制，若果熔断策略选用不当还会起反作用,甚至不如APM监控+分布式配置功能开关组合策略。所以对于完整性要求比较的高的业务场景，可以取消重试，去掉熔断器，但是要在业务流程的入口处加上限流机制，防止过载。
我们目前的措施是在入口处做限流。因为我们的系统主要还是给公司内部的运营人员用的，运营会有很多批量操作，这些操作都是短时间大批量数据的处理，在不影响系统正常运作的前提下，我们直接在功能入口处做限流，限制操作频次，限制数据量。
还有一种情况是定时任务处理大批量的数据，对这种场景我们并没有做限流，否则会影响处理效率。但是所有的接口都设计成幂等的。

4、遗留问题

请求日志主要做幂等校验的，应该和业务数据隔离开来，目前系统还是放在一起的。

Cloudpods

开源、云原生的融合云平台

更多推荐

面向未来的 IT 基础设施管理架构——融合云（Unified IaaS）

随着数字化时代的到来，IT系统已成为人类社会正常运转不可或缺的组成部分。不远的未来，智能制造，5G和人工智能等技术将成为推动生产力发展的重要引擎，人类社会将面临前所未有的全面彻底的数字化浪潮。IT基础设施作为IT系统运行的平台和载体，是实现数字化的基石。在这场数字化浪潮中，企业必须积极拥抱云计算技术，采用符合技术发展趋势、面向未来的IT基础构架，才能在未来的竞争中赢得先机。一、云计算历经十余年

Cloudpods

Cloudpods负载均衡的功能介绍

作者:周有松今天的内容会从以下几个方面展开：负载均衡产品简介。主要介绍负载均衡作为一个云上产品，它的功能模型是怎样的，日常使用中会遇到的业务词汇负载均衡的功能与典型应用场景。这部分主要结合业务词汇，对负载均衡服务中常见的一些功能选项进行介绍，并举例介绍一些典型的应用场景最后，我们做一下总结，讨论一下负载均衡产品相比传统方式的优点一、产品简介 1. 以NGINX为例提到负载均衡，我们以

Cloudpods

使用Linux vfio将Nvidia GPU透传给QEMU虚拟机

Linux 上虚拟机 GPU 透传需要使用 vfio 的方式。主要是因为在 vfio 方式下对虚拟设备的权限和 DMA 隔离上做的更好。但是这么做也有个缺点，这个物理设备在主机和其他虚拟机都不能使用了。 qemu 直接使用物理设备本身命令行是很简单的，关键在于事先在主机上对系统、内核和物理设备的一些配置。单纯从 qemu 的命令行来看，其实和普通虚拟机启动就差了最后那个-device的选项。这