面试题：分布式，微服务相关

1.CAPC：一致性，所有节点在同一时间的数据要完全一致，强一致性A：可用性：服务一直可用，不出现用户操作失败或者超时等影响用户体验的情况P：分区容错性：分布式系统遇到某个节点或网络分区故障的时候，仍然能够对外提供满足一致性和可用性的服务CP和AP：分区容错是必须保证的，当发生网络分区时，要继续服务，那么强一致性和可用性只能二选一2.BASE：即使无法做到强一致性，但每个应用可以根据自身业务特点，

邮件名

3815人浏览 · 2022-03-17 20:30:25

邮件名 · 2022-03-17 20:30:25 发布

1.CAP

C：一致性，所有节点在同一时间的数据要完全一致，强一致性
A：可用性：服务一直可用，不出现用户操作失败或者超时等影响用户体验的情况
P：分区容错性：分布式系统遇到某个节点或网络分区故障的时候，仍然能够对外提供满足一致性和可用性的服务
CP和AP：分区容错是必须保证的，当发生网络分区时，要继续服务，那么强一致性和可用性只能二选一

2.BASE：即使无法做到强一致性，但每个应用可以根据自身业务特点，采取适当的方式实现弱一致性

BA：基本可用：响应时间上的损失或者系统功能上的损失
S：软状态：数据同步允许一定的延迟
E：最终一致性：系统中的数据副本，经过一段时间，最终能达到一致性

3.负载均衡算法、类型

   1.随机
   2.轮询
   3.加权轮询
   4.最小连接数（最小访问量）
   5.源地址哈希
   6.加权随机

4.分布式架构下session共享有什么方案：

1.redis存储token
2.服务器间session同步
3.ip绑定策略，nginx中可以设置同一个ip只能在同一个机器访问，这样失去了负载均衡的意义

5.分布式Id生成方案

   1.uuid:生成快，性能好，无序，长度长，字符串
   2.数据库自增id：依赖db，存在单点问题
   3.分布式数据库自增id：每次获取id都要请求一次数据库，而且维护困难
   4.leaf-segment：每次获取一个id段，比如1-100的id段，存到本地备用，只会请求一次数据库
   5.双buffer：将获取一个号段，变成获取两个号段，先获取了100个id，然后用到10%的时候，再异步获取一百个
   6.基于redis，mongo，zk等中间件
   7.雪花算法:64为的全局id，引入时间戳和保持自增
       1.最高位为符号位，位0
       2.41位的时间戳，精确到毫秒级
       3.10位机器标识，最多可支持到1024台机器
       4.12位的计数序列号，支持每毫秒4096个Id生成

6.分布式锁的解决方案

  1.zookeeper分布式锁
       1.zk通过临时节点，解决了死锁问题，因为节点挂掉，那么这个临时节点也会自动删除掉，客户端就能获取到锁
   2.redis分布式锁
       1.setnx，如果key不存在，则返回1并设置，存在则返回0
       2.设置超时时间，解决死锁问题
       4.加锁和设置锁的超时时间并不是原子操作，所以可能产生死锁，可以set命令
       5.高并发场景下，锁的超时时间设置可能产生问题，比如进程A加锁，但是还没释放锁就自动过期了，线程B恰好又进来加锁，结果A释放的是B的锁
         所以set的值最好为一个Uuid，释放的时候判断是否是这个uuid
       6.redission加锁，看门狗机制，自动刷新超时时间，lua原子操作，可重入性和锁续期
       7.redis分布式锁最大问题是集群模式下，master节点宕机，锁丢失

7.分布式事务解决方案：

  1.两种分布式事务：
       1.在一个Method中操作了两种数据库，用@Trancational没有用，可以用JTA解决
       2.A节点调用B节点，A节点调用DBA，B节点调用DBB
   2.XA规范：分布式事务规范，定义了分布式事务模型
       1.四个角色：事务管理器（协调者TM）、资源管理器（参与者RM）、应用程序AP、通信资源管理器CRM
       2.全局事务：一个横跨多个数据库的事务，要么同时提交，要么同时回滚
   3.两阶段协议
       1.第一阶段：每个参与者执行本地事务但不提交，进入ready状态，并通知协调者已经准备就绪
       2.第二阶段：当协调者确认每个参与者都ready后，通知参与者进行commit操作，如果有参与者fall，则发送rollback命令，各参与者回滚
       3.问题
           1.单点故障：一旦事务管理器出现故障，整个系统不可用（参与者都会阻塞住），并且出现一系列问题
       4.项目：这种方案比较适合用于单应用里面，比如一个方法调用了两个数据库，效率很低，不适合高并发，用spring + JTA就能实现，一般我们
           很少用，其实一个服务操作两个不同的库，是不合规的，微服务基本上要求一个服务只能操作一个库，然后想要用这个服务就通过rest或者rpc调用
   4.三阶段协议：主要解决两阶段的单点故障问题
       1.第一阶段：发送cancommit消息，确认数据库环境正常
       2.第二阶段：发送precommit消息，完成sql语句操作，但未提交事务
       3.第三阶段：发送docommit消息，完成事务的提交和回滚
       4.超时机制：如果precommit成功了，但一定时间内还未收到docommit消息，则认为协调者挂了，则自己会执行docommit操作
       4.项目：三阶段协议其实和两阶段差不多，只不过多了个确认数据库环境是否异常的阶段，并且增加了超时重试的机制，也不用
   5.TCC补偿事务（Try,Confirm,Cancel）
       1.try:做业务检查和资源预留
       2.confirm:做业务确认
       3.cancel:实现一个与try相反的回滚操作，是业务上的回滚，不是数据库的回滚，比如你try加了100元钱，那么这个回滚就需要减少100元钱
       4.TM首先发起所有分支的try操作，一旦有一个失败，TM会发起所有事务的cancel操作，全部成功，则发起confirm
       5.问题
           1.对业务侵入性很大
       6.项目：这个方式用的也比较小，一般先检查数据的条数或者关键数据，然后调用其他库的服务时，如果抛出异常，就硬编码去回滚，比如某个数量 + 1，
           那么出现问题就得手动调用减1的服务，代码量巨大，而且承受不住并发，难以维护
   6.消息队列的事务
       1.发送prepare消息到中间件
       2.发送成功后，执行本地事务
           1.执行成功，则commit，消息中间件将消息下发至消费端
           2.如果失败，则回滚，消息中间件删除消息
       3.消费端接收到消息进行消费，如果消费失败，则不断重试
   7.阿里开源的分布式事务解决方案seata
   8.本地消息表：字段有，id，业务id，消息状态，消息内容，重试次数等
       1.消息生产方，需要额外建一个消息表，并且记录消息的发送状态。消息表和业务数据要在一个库里面
       2.消息经过mq发送给消费方，发送失败则自动重试
       3.消息消费方处理这个消息，完成业务逻辑，然后将是否成功的消息通过mq发送给消息生产方
       4.生产方监听消费方是否消费成功，再修改本地消息表中的状态
       5.如果消息在mq中，或者网络中发送失败，则在保证接口幂等的情况下，引入一个定时任务，读取消息发送失败的状态
       6.本地消息表中失败的消息，就重新读取发送到mq中重试，直到重试次数阈值之前成功，若不成功，则短信告警，人工介入或者回滚
       7.缺点：与业务耦合，难以做通用性，高并发下有瓶颈

8.接口幂等性

    1.根据具体业务来判断怎么处理
       1.token + redis 机制(举例订单支付业务)
           1.当到了支付的场景时，生成一个全局唯一的token，存入到redis中，并且返回给客户端
           2.发起支付操作的时候附带这个token
           3.接口处理：
               1.获取分布式锁（处理并发情况）
               2.判断redis中是否存在token
               3.存在，执行支付业务逻辑，执行后删除token，否则返回订单已支付
               4.释放分布式锁
       2.CAS保证接口幂等
           1.状态机制幂等（举例订单支付状态 0 待支付 1 支付中）
           2.update order set status = 1 where status = 0 and orderId = ?
           3.要进行支付，上来先更新一下订单的支付状态
       3.乐观锁方案，版本控制
           1.大部分订单系统都是分布式部署的，订单和库存业务独立部署，由于网络原因，可能请求延迟了，重新发起请求，就可能导致幂等性问题
           2.update t_goods set count = count - 1 where good_id = 2
           3.如果请求两次，没保证幂等，则库存减了两个
           4.借鉴数据库乐观锁或者版本控制：update t_goods set count = count - 1,version = version + 1 where good_id = 2 and version = 1
       4.防重表
           1.数据库建立防重表，加唯一索引，订单有状态控制，则可以支付成功后删除订单号，没有的话也可以不删除

9.高并发预约系统设计：疫情期间，政府免费发放口罩的预约服务，服务升级

   1.硬件参数：
       1.一台16核，64g内存的服务器
       2.mysql服务器，单台
   2.产生问题：
       1.系统qps四五百多
       2.预约页面在高峰时期页面加载卡顿，url访问缓慢，系统崩溃掉 （解决方法7，5）
       3.netstat 查看当前80端口连接数  netstat -ant|awk '/^tcp/ {++S[$NF]} END {for(a in S) print (a,S[a])}' （解决方法8）
           1.状态是established的连接数量为500多
           2.状态是time_wait的连接数量为？？？(这个值需要深思熟虑一下)
               1.TIME_WAIT出现的原因是客户端请求到linux，会占用一个端口。如果请求了，服务端没返回数据，就回出现TIME_WAIT
       4.服务中调用了三个接口，并且都是顺序执行的，比如身份信息校验接口，失信人接口之类的，必须获取到数据之后才能进行下一步操作
         三个接口的调用大概花费2-3s，原因是网络环境复杂，接口数据需要经过两三家公司的层层封装调用返回（解决方法9）
       5.会有人在预约开始之前一分钟就不断地对服务发起请求，有点像黄牛用代码写的程序，毕竟当时疫情刚开始，口罩是很值钱的（解决方法3）
       6.没有采用缓存，已经预约的人还能再次请求，查询数据库之后才返回（解决方法5.4）
       7.oracle的连接数有到了800多，查询变得缓慢，有些日志中报超时错误(解决方法2)
       8.出现超约现象，原本是定只能约500人，但是多约了3个（解决方法5.5）
       9.页面的所有资源加起来大小有3m，还有两张300k的图片，每次加载页面需要大约4m的带宽（解决方法7）
       10.记录预约成功或者失败的日志到oracle中，产生压力（解决方法5.3）
       11.预约的时候从预约，到预约成功，中间经过了5s左右(解决方法5.6，5.7)
   3.当时的解决方案：
       1.软件方面
           1.采用redis做缓存
           2.建立数据库主从复制，读写分离
           3.nginx配置对某个ip请求频率高的或者请求次数多的拦截
           4.已预约的手机号码防止再次进行预约，将预约时段和手机号码作为Key，存入redis
           5.预约主要业务逻辑
               1.缓存预热，页面上需要展示的一些通过接口获取的数据，库存预热，预约的时段和数量存入redis
               2.mq异步，削峰，预约成功则扣减redis数量，redis新增一条预约的人员的Key，值为1（预约状态，0表示预约失败，1表示正在预约中，2表示预约成功），
                 值大于1就拦截，防止重复预约，然后发送一mq消息到业务处理逻辑
               3.日志消息发送到mq中收集
               4.mq处理成功，则redis的预约人员的key设置为2，处理失败，则预约状态变为0，redis库存+1
               5.整个预约的主要逻辑加上redision分布式锁，锁的是预约时间段，并且设置超时时间
               6.返回一个正在预约中的状态给前端，前端每隔1s发起一个短轮询，ajax请求，获取是否预约成功，获取到的值为0则表示失败，数据库查询失败原因返回
               7.是否预约成功的逻辑是直接查询redis的时间段和手机号的key，成功则返回，查询不到则重试5次自动失败
           6.nginx作负载均衡，部署三台服务，分散系统压力
           7.nginx反向代理前端代码，开启gzip压缩技术，静态资源缓存
           8.解决tcp连接time_wait问题
               1.linux可以tcp端口数开放到65535个
               2.linux可以开启端口快速重用
           9.新增全局线程池，设置核心40线程，最大线程 2  核心线程，多线程同时获取3个接口数据，CountDownLatch控制返回
       2.硬件方面
           1.mysql主从集群，分散读并发压力
           2.增加两台 16核，64g内存的服务器
   4.优化后的系统
       1.QPS:5000多
   5.现在的解决方案（目的是解决更大的并发与流量，基于以上的解决方案新增以下几点）：
       1.引入Springcloud Gateway 网关服务统一鉴权与服务间负载均衡
       2.引入Springcloud Alibaba Sentinal，作服务间的限流与熔断，降级，隔离，保证高可用与集群的正常运行
       3.redis作redis-cluster集群，主从模式，保证数据的高可用性，独写分离，解决内存瓶颈

向您推荐>>Eolink开发者社区

权威｜前沿｜技术｜干货｜国内首个API全生命周期开发者社区

更多推荐

沃云统一开发平台介绍

沃云集成平台研发平台介绍1.平台优势2.平台原理3.研发平台使用方法4.遇到的问题5.现阶段实现的功能6.后续需要补充的功能和优化内容研发平台介绍1.平台优势解决孤岛式应用，实现能力共享；现有系统框架过于复杂，跨系统业务处理成本居高不下，协同服务共享，降低运维成本；提高项目应用资源监控能力，改善资源利用率；业务微服务化，快速发布、快速部署，快速响应业务需求变化；沃云平台不仅提供了自动化的、可快速部

云原生

(20200916 Solved)docker-compose up创建容器自动退出

问题描述如题，创建容器后自动退出了。并且docker start container无效解决方案原因是缺失了控制终端的配置，需要在docker-compose.yml中增加tty:true ，有时候这样也不行，需要再增加一个command:/bin/bash，命令不一定是这个，需要是一个不会退出的命令，然后用-d后台启动容器。Referencesdocker-compose启动容器后自动退出...

云原生

基于docker的test-containers环境百宝箱

笔者语录：我开了个公众号【Java你我他】，欢迎大家关注。在很多时候，程序猿们更关注代码本身，而不愿意把时间花费在环境搭建上，这也是Docker变得越来越受欢迎的原因之一。test-containe是Docker生态圈中的一颗新星，其主要针对测试领域、背靠Docker实现环境百宝箱功能。 test-containers：你要的环境，我都有~ 假设我们现在需要一个redis-clust