今天开发一个AOP接口需求协议,在Linux上启动tomcat应用的时候,日志打印出如下错误:

java.lang.IllegalStateException: failed to create a child event loop
    at io.netty.util.concurrent.MultithreadEventExecutorGroup.<init>(MultithreadEventExecutorGroup.java:68)
    at io.netty.channel.MultithreadEventLoopGroup.<init>(MultithreadEventLoopGroup.java:49)
    at io.netty.channel.nio.NioEventLoopGroup.<init>(NioEventLoopGroup.java:61)
    at io.netty.channel.nio.NioEventLoopGroup.<init>(NioEventLoopGroup.java:52)
    at io.netty.channel.nio.NioEventLoopGroup.<init>(NioEventLoopGroup.java:44)
    at com.hollycrm.hollyuniproxy.server.socket.nio.NettyServer.<init>(NettyServer.java:28)
    at com.hollycrm.hollyuniproxy.server.http.SocketServerConfigListener.contextInitialized(SocketServerConfigListener.java:44)
    at org.apache.catalina.core.StandardContext.listenerStart(StandardContext.java:5003)
    at org.apache.catalina.core.StandardContext.startInternal(StandardContext.java:5517)
    at org.apache.catalina.util.LifecycleBase.start(LifecycleBase.java:150)
    at org.apache.catalina.core.ContainerBase.addChildInternal(ContainerBase.java:901)
    at org.apache.catalina.core.ContainerBase.addChild(ContainerBase.java:877)
    at org.apache.catalina.core.StandardHost.addChild(StandardHost.java:652)
    at org.apache.catalina.startup.HostConfig.deployDirectory(HostConfig.java:1263)
    at org.apache.catalina.startup.HostConfig$DeployDirectory.run(HostConfig.java:1978)
    at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)
    at java.util.concurrent.FutureTask.run(FutureTask.java:262)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:745)
Caused by: io.netty.channel.ChannelException: failed to open a new selector
    at io.netty.channel.nio.NioEventLoop.openSelector(NioEventLoop.java:128)
    at io.netty.channel.nio.NioEventLoop.<init>(NioEventLoop.java:120)
    at io.netty.channel.nio.NioEventLoopGroup.newChild(NioEventLoopGroup.java:87)
    at io.netty.util.concurrent.MultithreadEventExecutorGroup.<init>(MultithreadEventExecutorGroup.java:64)
    ... 19 more
Caused by: java.io.IOException: 打开的文件过多
    at sun.nio.ch.IOUtil.makePipe(Native Method)
    at sun.nio.ch.EPollSelectorImpl.<init>(EPollSelectorImpl.java:65)
    at sun.nio.ch.EPollSelectorProvider.openSelector(EPollSelectorProvider.java:36)
    at io.netty.channel.nio.NioEventLoop.openSelector(NioEventLoop.java:126)
    ... 22 more

查了一些资料,经分析发现原因如下:

原因:

打开的文件过多,一般来说是由于应用程序对资源使用不当造成的,比如没有及时关闭socket或数据库连接等。但也可能应用确实需要打开比较多的文件句柄,而系统本身的设置限制了这一数量。

操作系统中打开文件的最大句柄数会受到系统设置的限制,常常发生在很多个并发用户访问服务器的时候。因为执行每个用户的应用服务器都要加载很多文件(new一个socket就需要一个文件句柄),这就会导致打开文件的句柄缺乏。

解决办法:

尽量把类打成jar包,因为一个jar包只消耗一个文件句柄。如果不打包,一个类就要消耗一个文件句柄。java的垃圾回收不能关闭网络连接打开的文件句柄。如果没有执行close()(例如:java.net.Socket.close())则文件句柄将一直存在,而不能被关闭。你也可以考虑设置socket的最大打开数来控制这个问题。对操作系统做相关的设置,增加最大文件句柄数量。

服务器端修改:

1、查看系统允许打开的最大文件数

#cat /proc/sys/fs/file-max

2、查看每个用户允许打开的最大文件数
ulimit -a

3、发现系统默认的是open files (-n) 1024,问题就出现在这里。在系统文件/etc/security/limits.conf中修改这个数量限制,在文件中加入内容(该项操作需要管理员权限):

* soft nofile 65536
* hard nofile 65536

另外方法:

1.使用ps -ef |grep java (java代表你程序,查看你程序进程) 查看你的进程ID,记录ID号,假设进程ID为12

2.使用:lsof -p 12 | wc -l 查看当前进程id为12的 文件操作状况
执行该命令出现文件使用情况为 1052

3.使用命令:ulimit -a 查看每个用户允许打开的最大文件数(针对当前session有效,用户退出或者系统重新后恢复默认值)

4.然后执行:ulimit -n 4096
将open files (-n) 1024 设置成open files (-n) 4096

这样就增大了用户允许打开的最大文件数。问题得以解决。

在这次问题排查中,涉及到的有关查询文件句柄以及网络连接数的Linux命令总结如下:

// 查看服务器的各种信息  
# free -m  
             total       used       free     shared    buffers     cached  
Mem:         15901      15742        158          0        127      12784  
-/+ buffers/cache:       2830      13070  
Swap:         8015          2       8013  

// 查看打开的文件数  
# lsof -n | wc -l  
70091  

// 查看网络相关的文件句柄数
# lsof -n -i | wc -l  
62548  

// 查看网络连接数  
# netstat -ant | wc -l  
63777  

// 查看端口为54104的连接数
# netstat -ant | grep ":54104" | wc -l  
61101  

// 查看端口为54104的各种状态的连接数  
# netstat -ant | grep ":54104" | awk '{print $6}' | sort | uniq -c  | sort -nr   
  54166 CLOSE_WAIT  
   6920 ESTABLISHED  
     10 SYN_RECV  
      1 LISTEN  

// 所有网络连接数,按状态排序  
# netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print S[a],a}' | sort -nr   
54184 CLOSE_WAIT  
8239 ESTABLISHED  
926 FIN_WAIT2  
207 FIN_WAIT1  
64 TIME_WAIT  
46 LAST_ACK  
31 SYN_RECV  
1 CLOSING  

// 所有打开文件数,按进程PID排序  
# lsof -n | awk '{print $2}' | sort -n | uniq -c | sort -nr | more  
  65605 18374  
    741 1348  
    313 1349  
    236 1350  
    149 18407  
Logo

更多推荐