Linux中epoll IO多路复用机制

epoll简介epoll 是Linux内核中的一种可扩展IO事件处理机制，最早在 Linux 2.5.44内核中引入，可被用于代替POSIX select 和 poll 系统调用，并且在具有大量应用程序请求时能够获得较好的性能（此时被监视的文件描述符数目非常大，与旧的 select 和 poll 系统调用完成操作所需 O(n) 不同， epoll能在O(1)时间内完成操作，所以性能相当高

kobejayandy

3023人浏览 · 2014-01-29 16:50:53

kobejayandy · 2014-01-29 16:50:53 发布

epoll简介

epoll 是Linux内核中的一种可扩展IO事件处理机制，最早在 Linux 2.5.44内核中引入，可被用于代替POSIX select 和 poll 系统调用，并且在具有大量应用程序请求时能够获得较好的性能（此时被监视的文件描述符数目非常大，与旧的 select 和 poll 系统调用完成操作所需 O(n) 不同， epoll能在O(1)时间内完成操作，所以性能相当高），epoll 与 FreeBSD的kqueue类似，都向用户空间提供了自己的文件描述符来进行操作。

[cpp]view plaincopy
   
int epoll_create(int size);  

创建一个epoll的句柄，size用来告诉内核需要监听的数目一共有多大。当创建好epoll句柄后，它就是会占用一个fd值，在linux下如果查看/proc/进程id/fd/，是能够看到这个fd的，所以在使用完epoll后，必须调用close() 关闭，否则可能导致fd被耗尽。

  
   
    
     [cpp] 
     view plain
     copy
     
    
   
   int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);

epoll的事件注册函数，第一个参数是 epoll_create() 的返回值，第二个参数表示动作，使用如下三个宏来表示：

[cpp]view plaincopy
   
EPOLL_CTL_ADD    //注册新的fd到epfd中；  
EPOLL_CTL_MOD    //修改已经注册的fd的监听事件；  
EPOLL_CTL_DEL    //从epfd中删除一个fd；  

第三个参数是需要监听的fd，第四个参数是告诉内核需要监听什么事，struct epoll_event 结构如下：

[cpp]view plaincopy
   
typedef union epoll_data  
{  
  void        *ptr;  
  int          fd;  
  __uint32_t   u32;  
  __uint64_t   u64;  
} epoll_data_t;  
  
struct epoll_event {  
__uint32_t events; /* Epoll events */  
epoll_data_t data; /* User data variable */  
};  

events 可以是以下几个宏的集合：

[cpp]view plaincopy
   
EPOLLIN     //表示对应的文件描述符可以读（包括对端SOCKET正常关闭）；  
EPOLLOUT    //表示对应的文件描述符可以写；  
EPOLLPRI    //表示对应的文件描述符有紧急的数据可读（这里应该表示有带外数据到来）；  
EPOLLERR    //表示对应的文件描述符发生错误；  
EPOLLHUP    //表示对应的文件描述符被挂断；  
EPOLLET     //将EPOLL设为边缘触发(Edge Triggered)模式，这是相对于水平触发(Level Triggered)来说的。  
EPOLLONESHOT//只监听一次事件，当监听完这次事件之后，如果还需要继续监听这个socket的话，需要再次把这个socket加入到EPOLL队列里。  

当对方关闭连接(FIN), EPOLLERR，都可以认为是一种EPOLLIN事件，在read的时候分别有0，-1两个返回值。

[cpp]view plaincopy
   
int epoll_wait(int epfd, struct epoll_event *events, int maxevents, int timeout);  

参数events用来从内核得到事件的集合，maxevents 告之内核这个events有多大，这个 maxevents 的值不能大于创建 epoll_create() 时的size，参数 timeout 是超时时间（毫秒，0会立即返回，-1将不确定，也有说法说是永久阻塞）。该函数返回需要处理的事件数目，如返回0表示已超时。

我们目前的网络模型大都是epoll的，因为epoll模型会比select模型性能高很多，尤其在大连接数的情况下，作为后台开发人员需要理解其中的原因。
select/epoll的特点：
select的特点：select 选择句柄的时候，是遍历所有句柄，也就是说句柄有事件响应时，select需要遍历所有句柄才能获取到哪些句柄有事件通知，因此效率是非常低。但是如果连接很少的情况下， select和epoll的LT触发模式相比，性能上差别不大。
这里要多说一句，select支持的句柄数是有限制的，同时只支持1024个，这个是句柄集合限制的，如果超过这个限制，很可能导致溢出，而且非常不容易发现问题， TAF就出现过这个问题，调试了n天，才发现：）当然可以通过修改linux的socket内核调整这个参数。

epoll的特点：epoll对于句柄事件的选择不是遍历的，是事件响应的，就是句柄上事件来就马上选择出来，不需要遍历整个句柄链表，因此效率非常高，内核将句柄用红黑树保存的。
对于epoll而言还有ET和LT的区别，LT表示水平触发，ET表示边缘触发，两者在性能以及代码实现上差别也是非常大的。