问题:k8s pods中用户执行的job经常要跑多线程,所以会使用 &方式,这时候job直接执行完当前shell退出了,造成用户实际执行的任务没有执行。
分析:此问题刚开始采用jobs方式判断,发现服务器在脚本里执行jobs是可以调出后台进程的,而在pods中却不行。例子如下:

服务器:

[root@node241 ~]# cat a.sh
i=0
while [ $i -le 10 ]
do
sleep 1
echo $i
i=$(($i+1))
done
[root@node241 ~]# cat c.sh
i=0
while [ $i -le 10 ]
do
sleep 1
echo $i
i=$(($i+1))
done

[root@node241 ~]# cat b.sh
sh a.sh&
sh c.sh&
echo $(jobs)
[root@node241 ~]# sh b.sh
[1]- Running sh a.sh & [2]+ Running sh c.sh &
[root@node241 ~]# 0
0
1
1
2
2
3
3
4
4
5
5
6
6
7
7
8
8
9
9
10
10

pods中

root@dev:~# cat a.sh
i=0
while [ $i -le 5 ]
do
sleep 1
echo $i
i=$(($i+1))
done

root@dev:~# cat d.sh
sh a.sh&
echo $(jobs)
root@dev:~# sh d.sh

root@dev:~# 0
1
2
3
4
5

此时job脚本中通过jobs命令判断后台进程是否执行完毕是失败的,这点服务器和容器中还是有区别的。

问题解决
在job脚本中采用wait命令,则问题解决:

wait方式

root@dev:~# cat a.sh
i=0
while [ $i -le 5 ]
do
sleep 1
echo $i
i=$(($i+1))
done

root@dev:~# cat c.sh
i=0
while [ $i -le 10 ]
do
sleep 1
echo $i
i=$(($i+1))
done

root@dev:~# cat b.sh
sh a.sh&
sh c.sh&
wait
echo hh
root@dev:~# sh b.sh
0
0
1
1
2
2
3
3
4
4
5
5
6
7
8
9
10
hh

此时wait %n中n指的是后台进程的任务号,而不是pid,等该后台进程执行完毕,当前脚本才退出。要彻底解决所有后台进程结束才推出就改为wait,wait不加参数指等待所有后台进程
其中 echo $(jobs -p)实际上也无法输出,但是wait命令却能获得这个值。
wait方式完美解决了用户job无法后台多线程启动的问题。

Logo

K8S/Kubernetes社区为您提供最前沿的新闻资讯和知识内容

更多推荐