spark错误记录：Container on host: was preempted（没有彻底解决，只是理解这个问题）

（作者：陈玓玏 data-master)spark-sql任务跑着跑着，碰到一个bug：Containeron host:was preempted又是一个新鲜的bug呢！！一通查资料，得出一个初步结论：因为我的任务，其中有task占用的内存太大，而我们的yarn又是使用的公平调度机制，当有新任务来的时候，我的task对应的容器就会被别的任务抢占。于是就简单了解下yarn的公平调度机制。yarn有

小白白白又白cdllp

3491人浏览 · 2020-07-28 17:09:17

小白白白又白cdllp · 2020-07-28 17:09:17 发布

（作者：陈玓玏 data-master)

spark-sql任务跑着跑着，碰到一个bug：

Container  on host:  was preempted

在这里插入图片描述

又是一个新鲜的bug呢！！

一通查资料，得出一个初步结论：因为我的任务，其中有task占用的内存太大，而我们的yarn又是使用的公平调度机制，当有新任务来的时候，我的task对应的容器就会被别的任务抢占。

于是就简单了解下yarn的公平调度机制。yarn有先入先出调度器，容量调度器，公平调度器三种调度器。

先入先出调度器，先来的任务先执行，任务非常多，或者有的任务非常大的情况下，其他任务就苦了。

容量调度器，专门为小任务开辟了队列，不会抢占容器，因此任务非常多的时候，还是first in first out。

公平调度器，允许抢占容器。资源比较充足的情况下，新任务启动时，会等之前的任务阶段性使用资源释放出来，才会分老任务的资源。但是在资源不足的情况下，占用资源超过公平份额的容器，就可能被强制中断，把容器分配给占用资源未超过公平份额的容器。这个公平份额和使用份额，在spark web ui上可以看到。
在这里插入图片描述

至于解决的办法，我自己觉得，
1）要么就是资源紧张的时候，别挂任务，或者挂任务别挂spark任务，挂hive，嫌慢的话就多开些并发，hive就算多开并发也不会像spark一样自己互相抢占资源。

2）要么就是，好好看看自己的代码，看是不是能有些方法优化一下，减少不必要的数据，或者减少不必要的关联/操作，避免一个task中数据过多。

3）再不然，就只能改yarn的参数了，让资源抢占的门限值变高些。

这个错误也不一定会使得任务失败，有时候只是告警，会重启别的容器来执行失败的任务。

参考资料：

牵扯到yarn调度：https://blog.csdn.net/zhanyuanlin/article/details/71516286；
调度中的抢占机制，https://blog.csdn.net/bujiujie8/article/details/86713115（这篇写得比较好）
https://www.mail-archive.com/issues@spark.apache.org/msg101196.html
https://blog.csdn.net/m0_37885286/article/details/106674721

向您推荐>>Eolink开发者社区

权威｜前沿｜技术｜干货｜国内首个API全生命周期开发者社区

更多推荐

ELK实现containerd的容器日志采集展示【基于logging的全栈监测】

企业级ELK Stack构建介绍

云原生

深入理解 Mocha 测试框架：从零实现一个 Mocha

前言什么是自动化测试自动化测试在很多团队中都是Devops环节中很难执行起来的一个环节，主要原因在于测试代码的编写工作很难抽象，99%的场景都需要和业务强绑定，而且写测试代码的编写工作量往往比编写实际业务代码的工作量更多。在一些很多业务场景中投入产出比很低，适合写自动化测试的应该是那些中长期业务以及一些诸如组件一样的基础库。自动化测试是个比较大的概念，其中分类也比较多，比如单元测试，端对端测试，集

云原生

(20200916 Solved)docker-compose up创建容器自动退出

问题描述如题，创建容器后自动退出了。并且docker start container无效解决方案原因是缺失了控制终端的配置，需要在docker-compose.yml中增加tty:true ，有时候这样也不行，需要再增加一个command:/bin/bash，命令不一定是这个，需要是一个不会退出的命令，然后用-d后台启动容器。Referencesdocker-compose启动容器后自动退出...