LINUX C网络编程中的心跳机制

在TCP网络通信中，经常会出现客户端和服务器之间的非正常断开，需要实时检测查询链接状态。常用的解决方法就是在程序中加入心跳机制。从网络上找到，主要有以下方法实现TCP异常断开的检测：SO_KEEPALIVE,SIO_KEEPALIVE_VALS 和Heart-Beat线程。(1)SO_KEEPALIVE 机制这是socket库提供的功能，设置接口是setso

yuyin86

4262人浏览 · 2014-05-04 18:16:15

yuyin86 · 2014-05-04 18:16:15 发布

在TCP网络通信中，经常会出现客户端和服务器之间的非正常断开，需要实时检测查询链接状态。常用的解决方法就是在程序中加入心跳机制。

从网络上找到，主要有以下方法实现TCP异常断开的检测：

SO_KEEPALIVE,SIO_KEEPALIVE_VALS 和Heart-Beat线程。
(1)SO_KEEPALIVE 机制
        这是socket库提供的功能，设置接口是setsockopt API：
   BOOL bSet=TRUE;
   setsockopt(hSocket,SOL_SOCKET,SO_KEEPALIVE,(const char*)&bSet,sizeof(BOOL));

       根据MSDN的文档，如果为socket设置了KEEPALIVE选项，TCP/IP栈在检测到对方掉线后，
   任何在该socket上进行的调用(发送/接受调用)就会立刻返回，错误号是WSAENETRESET ；
   同时，此后的任何在该socket句柄的调用会立刻失败，并返回WSAENOTCONN错误。

该机制的缺点：

一、SO_KEEPALIVE无法控制，它会每时每刻都发；

二、SO_KEEPALIVE设置空闲2小时才发送一个“保持存活探测分节”，不能保证实时检测。对于判断网络断开时间太长，对于需要及时响应的程序不太适应。
   当然也可以修改时间间隔参数，但是会影响到所有打开此选项的套接口！关联了完成端口的socket可能会忽略掉该套接字选项。
(2)SIO_KEEPALIVE_VALS 机制
     设置接口是WSAIoctl API:
     DWORD dwError = 0L ;
     tcp_keepalive sKA_Settings = {0}, sReturned = {0} ;
     sKA_Settings.onoff = 1 ;
     sKA_Settings.keepalivetime = 5500 ; // Keep Alive in 5.5 sec.
     sKA_Settings.keepaliveinterval = 3000 ; // Resend if No-Reply
     if (WSAIoctl(skNewConnection, SIO_KEEPALIVE_VALS, &sKA_Settings,
          sizeof(sKA_Settings), &sReturned, sizeof(sReturned), &dwBytes,
          NULL, NULL) != 0)
     {
           dwError = WSAGetLastError() ;
     }
     实现时需要添加tcp_keepalive and SIO_KEEPALIVE_VALS的定义文件MSTCPiP.h
     该选项不同于SO_KEEPALIVE 机制的就是它是针对单个连接的，对系统其他的套接
     口并不影响。
        针对完成端口的socket,设置了SIO_KEEPALIVE_VALS后，激活包由TCP STACK来负责。
     当网络连接断开后，TCP STACK并不主动告诉上层的应用程序，但是当下一次RECV或者SEND操作
     进行后，马上就会返回错误告诉上层这个连接已经断开了.如果检测到断开的时候，在这个连接
     上有正在PENDING的IO操作，则马上会失败返回.
    该机制的缺点：

不通用。MS的API只能用于Windows。
(3)Heart-Beat线程
这个是最常用的简单方法。在接收和发送数据时个人设计一个守护进程，定时发送Heart-Beat包，客户端/服务器收到该小包后，立刻返回相应的包即可检测对方是否实时在线。

该方法的好处是通用，但缺点就是会改变现有的通讯协议！大家一般都是使用业务层心跳来处理，主要是灵活可控。

UNIX网络编程不推荐使用SO_KEEPALIVE来做心跳检测，还是在业务层以心跳包做检测比较好，也方便控制，楼上给的代码是UNIX下的，WIN下不适用。Windows下此处的”非正常断开”指TCP连接不是以优雅的方式断开,如网线故障等物理链路的原因,还有突然主机断电等原因。
有两种方法可以检测:1.TCP连接双方定时发握手消息 2.利用TCP协议栈中的KeepAlive探测
第二种方法简单可靠,只需对TCP连接两个Socket设定KeepAlive探测。

第一种方法是自己给SOCKET设置个timeout，如果超时则认为对方客户端断掉，需重新连接.

//处理通信

void do_client_work(int client_sock,struct sockaddr_in client)
{
unsigned char cmd;
int val;
char *VideoPtr;
send_client_info(client_sock,"hello",5);
TCP_VIDEO_AGAIN_FLAG = 1;
printf("\nrecv start ...\n");
while(1)
{
 fd_set rds;
 struct timeval step;
 int ret;
 FD_ZERO(&rds);
 FD_SET(client_sock,&rds);
 step.tv_sec = 0;
 step.tv_usec = 1000;
 ret = select(client_sock+1,&rds,NULL,NULL,&step);
 if(ret < 0)
 {
 perror("select");
 exit(-1);
 }
 if(ret == 0)
 {

...//执行等待超时命令
 }
 else if(FD_ISSET(client_sock,&rds))
 {
 val = recv_client_info(client_sock,&cmd,1);
 if(val < 0)
 {
 break;
 }
 else
 {
 ...//执行读写客户端数据操作

        if(TcpOutFlag==1)
        {
          TcpOutFlag=0;
          break;
        }
       }
    }
}
}

//TCP接收数据

int recv_client_info(int client_sock,char* info,int length)
{
 int num;
 struct timeval tv;
 tv.tv_sec = 15;
 tv.tv_usec = 0;
 if (setsockopt(client_sock, SOL_SOCKET, SO_RCVTIMEO, &tv, sizeof(tv))>=0)
 {
 num = recv(client_sock,info,length,MSG_NOSIGNAL);
 if(num < 0)
 {
 perror("recv");
 return 0;
 }
 else if(num == 0)
 {
 printf("recv over\n");
 return -2;
 }
 else
 {
 pthread_mutex_lock(&mutex);
 TCP_Timeout = 0;
 pthread_mutex_unlock(&mutex);
 return 0;
 }
 }
 else
 {
 printf("TCP CONNECT超时...\n");
 return -1;
 }
}

第二种方法在Linux,Window2000下的实现Windows 2000平台下
头文件
#include <mstcpip.h>
//定义结构及宏
struct TCP_KEEPALIVE {
u_longonoff;
u_longkeepalivetime;
u_longkeepaliveinterval;

} ;

  1. tcp_keepalive live,liveout;
  2. live.keepaliveinterval=500;
  3. live.keepalivetime=3000;
  4. live.onoff=TRUE;
  5. int iRet = setsockopt(Socket,SOL_SOCKET,SO_KEEPALIVE,(char *)Opt,sizeof(int));
  6. if(iRet == 0){
  7.
  8.         DWORD dw;
  9.
10.        if(WSAIoctl(Socket,SIO_KEEPALIVE_VALS,&live,sizeof(live),&liveout,sizeof(liveout),&dw,NULL,NULL)== SOCKET_ERROR){
11.
12.                 //Delete Client
13.
14.                 return;
15.         }
16.    }

ACE下代码

  int Opt = 1;
  //在测试过程中，发现检测的次数是5次，即下面的设置中，从最近一次消息开始计算的10秒后，每次间隔5秒，连续发送5次，即
  //35秒发现网络断了
tcp_keepalive live,liveout;
live.keepaliveinterval=5000; //每次检测的间隔（单位毫秒）
live.keepalivetime=10000; //第一次开始发送的时间（单位毫秒）
live.onoff=TRUE;
int iRet = stream.set_option(SOL_SOCKET,SO_KEEPALIVE,&Opt,sizeof(int));
if(iRet == 0){

DWORD dw;

//此处显示了在ACE下获取套接字的方法，即句柄的(SOCKET)化就是句柄
if(WSAIoctl((SOCKET)h,SIO_KEEPALIVE_VALS,&live,sizeof(live),&liveout,sizeof(liveout),&dw,NULL,NULL)== SOCKET_ERROR){

//Delete Client

                  return;
          }
     }

Linux平台下
#include "/usr/include/linux/tcp.h"
#include "/usr/include/linux/socket.h"
KeepAlive实现，单位秒
//下面代码要求有ACE,如果没有包含ACE,则请把用到的ACE函数改成linux相应的接口
int keepAlive = 1;//设定KeepAlive
int keepIdle = 5;//开始首次KeepAlive探测前的TCP空闭时间
int keepInterval = 5;//两次KeepAlive探测间的时间间隔
int keepCount = 3;//判定断开前的KeepAlive探测次数

if(setsockopt(s,SOL_SOCKET,SO_KEEPALIVE,(void*)&keepAlive,sizeof(keepAlive)) == -1)
{
ACE_DEBUG ((LM_INFO,
ACE_TEXT ("(%P|%t) setsockopt SO_KEEPALIVE error!n")));

}

if(setsockopt(s,SOL_TCP,TCP_KEEPIDLE,(void *)&keepIdle,sizeof(keepIdle)) == -1)
{
ACE_DEBUG ((LM_INFO,
ACE_TEXT ("(%P|%t) setsockopt TCP_KEEPIDLE error!n")));

}

if(setsockopt(s,SOL_TCP,TCP_KEEPINTVL,(void *)&keepInterval,sizeof(keepInterval)) == -1)
{
ACE_DEBUG ((LM_INFO,
ACE_TEXT ("(%P|%t) setsockopt TCP_KEEPINTVL error!n")));

}

if(setsockopt(s,SOL_TCP,TCP_KEEPCNT,(void *)&keepCount,sizeof(keepCount)) == -1)
{
ACE_DEBUG ((LM_INFO,
ACE_TEXT ("(%P|%t)setsockopt TCP_KEEPCNT error!n")));

}

假设一种情况：一个socket TCP监听进程监听数据的时候如何接收关闭文件的socket连接？

不用并发

read/recv函数返回0均表示正常结束。此时关闭即可。如果用select/poll/epoll管理，该套接字也会读就绪，然后调用recv/read返回0。
  对于异常关闭如网络崩溃、主机宕机等，可通过设置SO_KEEPALIVE设置保活，协议会按照设定间隔自动发送探测分节。该选项分为设置无数据首次探测时间、探测间隔、探测次数控制TCP是否出错。如果你设置首次探测在10秒之后、探测间隔3次，探测次数3次，则最多30秒之后将给应用层返回一个对方非正常关闭的异常，此时可通过获得errno得到对应错误，read/recv返回为-1。具体代码是：
void setKeepAlive( int iSockfd , socklen_t iIdleTime , socklen_t iInterval , socklen_t iCount )
{

        setsockopt( iSockfd , SOL_SOCKET , SO_KEEPALIVE , (const char*)&iSockAttrOn , sizeof(iSockAttrOn) );

        setsockopt( iSockfd , SOL_TCP , TCP_KEEPIDLE , (const char*)&iIdleTime , sizeof(iIdleTime) );

        setsockopt( iSockfd , SOL_TCP , TCP_KEEPINTVL , (const char*)&iInterval,sizeof(iInterval) );

        setsockopt( iSockfd , SOL_TCP , TCP_KEEPCNT , (const char*)&iCount,sizeof(iCount) );

}

　心跳包之所以叫心跳包是因为：它像心跳一样每隔固定时间发一次，以此来告诉服务器，这个客户端还活着。事实上这是为了保持长连接，至于这个包的内容，是没有什么特别规定的，不过一般都是很小的包，或者只包含包头的一个空包。
    在TCP的机制里面，本身是存在有心跳包的机制的，也就是TCP的选项：SO_KEEPALIVE。系统默认是设置的2小时的心跳频率。但是它检查不到机器断电、网线拔出、防火墙这些断线。而且逻辑层处理断线可能也不是那么好处理。一般，如果只是用于保活还是可以的。
    心跳包一般来说都是在逻辑层发送空的echo包来实现的。下一个定时器，在一定时间间隔下发送一个空包给客户端，然后客户端反馈一个同样的空包回来，服务器如果在一定时间内收不到客户端发送过来的反馈包，那就只有认定说掉线了。
    其实，要判定掉线，只需要send或者recv一下，如果结果为零，则为掉线。但是，在长连接下，有可能很长一段时间都没有数据往来。理论上说，这个连接是一直保持连接的，但是实际情况中，如果中间节点出现什么故障是难以知道的。更要命的是，有的节点（防火墙）会自动把一定时间之内没有数据交互的连接给断掉。在这个时候，就需要我们的心跳包了，用于维持长连接，保活。
    在获知了断线之后，服务器逻辑可能需要做一些事情，比如断线后的数据清理呀，重新连接呀……当然，这个自然是要由逻辑层根据需求去做了。
    总的来说，心跳包主要也就是用于长连接的保活和断线处理。一般的应用下，判定时间在30-40秒比较不错。如果实在要求高，那就在6-9秒。

心跳检测步骤：
1 客户端每隔一个时间间隔发生一个探测包给服务器
2 客户端发包时启动一个超时定时器
3 服务器端接收到检测包，应该回应一个包
4 如果客户机收到服务器的应答包，则说明服务器正常，删除超时定时器
5 如果客户端的超时定时器超时，依然没有收到应答包，则说明服务器挂了

Linux

更多推荐

网卡速率和双工模式的配置

http://linux.chinaitlab.com/system/792187.html1、mii-tool 配置网络设备协商方式的工具； 1.1 mii-tool 介绍； mii-tool - view, manipulate media-independent interface status （mii-tool 是查看，管理介质的网络接口的状态）

Linux

Linux虚拟文件系统之文件系统卸载（sys_umount())

Linux中卸载文件系统由umount系统调用实现，入口函数为sys_umount()。较于文件系统的安装较为简单，下面是具体的实现。1. /*sys_umont系统调用*/2. SYSCALL_DEFINE2(umount, char __user *, name, int, flags)3. {4.struct path path;

Linux

Linux系统下超级终端Minicom的使用方法（例如：连接交换机，路由器等）转http://baike.baidu.com/view/2911642.htm?fr=ala0_1

Linux系统下超级终端Minicom的使用方法 　　Linux下的Minicom的功能与下的超级终端功能相似，适于在通过超级终端对设备的管理以及对嵌入操作系统的升级，现写出Minicom的使用手册： 　　1．启动minicom 　　以root权限登录系统 　　使用命令 　　minicom –s 则minicom启动，屏

Linux

所有评论(0)

查看更多评论

yuyin86

@yuyin86

已为社区贡献11条内容