浅谈 Linux 下常用 Socket 选项设置

摘要:
Socket选项旨在满足用户的定制需求。Linux的TCP/IP协议栈包含许多套接字选项,这些选项将出现在TCP层、IP层、套接字层等中。因此,在读取和设置套接字选项时需要指定级别。对于Linux 3.9版和Nginx 1.9.1版及更高版本,Nginx不再需要使用互斥体ngx_use_accept_mutex,引入了SO_ REUSEPORT选项,由内核级实现来平衡,以解决冲击组问题。

1.Socket和TCP/IP的关系

"All problems in computer science can be solved by another level of indirection."

为满足应用层需求,系统对TCP/IP层进行细节屏蔽和抽象,Socket层就相当于TCP/IP和应用层之间的中间层。

常用的socket/bind/accept/connect就是抽象出来的接口,使用它们可以快速进行网络程序开发,可见Socket中间层的重要性。

Socket选项就是为满足用户的定制化需求而生的。我们经常遇到的情况包括地址复用、端口复用、读写超时时间、读写缓冲区大小等。

在Linux的TCP/IP协议栈中包括很多Socket选项,它们会出现在TCP层、IP层、Socket层等,为此在读取和设置socket选项时需要指定level。

如图可以看到Socket层作为中间层以及各层支持的部分Socket选项:

浅谈 Linux 下常用 Socket 选项设置第1张

注:可通过man 7 tcp/man 7 ip查看tcp/ip各层Socket选项详细定义和添加内核版本等信息。

2.操作Socket选项的API

读取和设置Socket选项的API包括:

getsockopt、setsockopt、fcntl、ioctl等;

其中fcntl和ioctl用来设置socket的阻塞和非阻塞状态。

通过man获得的函数定义:

//ioctl函数定义

#include <sys/ioctl.h>

int ioctl(int d, int request, ...);

//fcntl函数定义

#include <unistd.h>

#include <fcntl.h>

int fcntl(int fd, int cmd, ... /* arg */ );

//get/setsockopt函数定义

#include <sys/types.h>

#include <sys/socket.h>

int getsockopt(int sockfd, int level, int optname,void *optval, socklen_t *optlen);

int setsockopt(int sockfd, int level, int optname,const void *optval, socklen_t optlen);

3.get/setsockopt使用说明

使用时需要按照函数要求的形参格式进行传递,显式指明其所在的level以及选项名称optname、optval类型和长度optlen。

level参数说明

从sys/socket.h的源码中可以看到对于level的说明如下:

/* Setsockoptions(2) level. Thanks to BSD these must match IPPROTO_xxx */

#define SOL_IP 0

#define SOL_IPX 256

#define SOL_AX25 257

#define SOL_ATALK 258

#define SOL_NETROM 259

#define SOL_TCP 6

#define SOL_UDP 17

#define SOL_SOCKET 0xffff

optval和optlen参数说明

optval和optlen均为指针类型,这两个参数与当前操作的option有直接关系,可以看到optval使用void*类型,optlen使用socklen_t*类型。

socklen_t类型说明:socklen_t和int应该具有相同的长度,否则会破坏 BSD套接字层的填充,POSIX开始时候用的是size_t。

Linus Torvalds 向他们解释使用size_t是完全错误的,因为在64位结构中 size_t和int的长度是不一样的,而这个参数的长度必须和int一致,最终POSIX的那帮家伙找到了解决的办法,创造了 一个新的类型socklen_t。

Linux Torvalds说这是由于他们发现了自己的错误但又不好意思承认,所以另外创造了一个新的数据类型。

指针使用:optval和optlen两个指针类型是缺一不可的,optval为void*类型如果没有长度说明,系统函数在调用时就无法获取边界,optlen为底层调用指明内存起始地址对应的偏移量,这是C中常用的指针操作模式。

Socket选项多是int和bool类型 但是也有一些复合类型比如linger,因此在读写选项是对于optval和optlen的编写要根据实际而定。

4. SO_REUSEADDR选项

典型场景:在《Unix网络编程》卷一中指出了SO_REUSEADDR的重要使用场景:当有一个有相同本地地址和端口的socket1处于TIME_WAIT状态时,而你启动的程序的socket2要占用该地址和端口,你的程序就要用到该选项。

TIME_WAIT :如何优雅关闭Socket是个值得思考的问题, TIME_WAIT状态是TCP协议为了保证全双工连接可靠性设置的,感兴趣可以查阅TIME_WAIT的作用,并不要一味的谈TIME_WAIT色变,这里就不展开了。

设置方法:未设置SO_REUSEADDR,在重启时就会绑定失败显示资源被占用,需要等待该IP+Port被释放才可以重启成功,该问题对于线上服务不可接受。

因此需要将服务端的socket设置为地址复用:

int enable = 1;

setsocketopt(sockfd,SOL_SOCKET,SO_REUSEADDR,(void*)&enable,sizeof(enable));

5. SO_REUSEPORT选项

作用效果:端口复用选项SO_REUSEPORT是在SO_REUSEADDR之后于Linux3.9版本加入的,并不是所有系统都支持该选项。 SO_REUSEPORT 允许多个进程监听相同的IP和Port,但是为了防止端口劫持增加了对进程所属用户的限制。

内核支持:端口复用选项是个非常大的进步,有利于服务端程序扩展、提高并发能力。值得一提的是SO_REUSEPORT在内核层面实现了简单的负载均衡,为监听的多个进程进行流量分发。

Nginx应用:Nginx的1.9.1版本引入了SO_REUSEPORT套接字选项,对于Nginx而言,启用该选项可以减少在某些场景下的锁竞争而改善性能。

Linux 3.9版本和Nginx1.9.1版本(含)之后的版本,Nginx已经无需再使用 互斥锁 ngx_use_accept_mutex,引入SO_REUSEPORT选项由内核层面实现负责均衡来解决惊群问题。

设置方法:

int enable = 1;

setsocketopt(sockfd,SOL_SOCKET,SO_REUSEPORT,(void*)&enable,sizeof(enable));

电脑刺绣绣花厂 http://www.szhdn.com广州品牌设计公司https://www.houdianzi.com

6. TCP_NODELAY选项

简单背景 : 为解决福特公司局域网拥塞问题 ,Nagle算法由福特公司的John Nagle 在1984年提出。同时代的其他网络也存在这种情况,因此Naggle算法被引入到协议栈。

算法原则:尽可能发送大块数据,避免网络中充斥着许多小数据块,任意时刻最多只能有一个未被确认的小段。未被确认是指一个数据块发送出去后,没有收到对方发送的ACK确认。

通俗解释:就是在两座城市的高速路上之前充斥着非常多的货车,货车的车厢中可能是一根羽毛、一个玩具熊或者一台机器等,造成了高速路的拥堵。为此要求每次最多只有一辆未被授权的货车行驶且每个货车装载尽可能多的东西,从而提高单次运输效率和降低货车数量,缓解高速路的拥堵。

算法弊端:上世纪80年代网络带宽有限,Nagle算法有效改善了网络拥塞情况,但是随着网络带宽的增加和通信基础设施水平的提高,最多只能有一个未被确认的小段的限制导致了无意义的等待,无法有效利用当前的网络带宽。

算法禁用:TCP_NODELAY可以解决Nagle算法带来的问题,开启TCP_NODELAY意味着允许小包的发送且不强制等待,对时效高且数据量小的应用非常实用。从应用程序的角度来说应该尽量避免写小包,从而实现数据包大小和数据包数量的效率最大化。

设置方法 :

int enable = 1;

setsockopt(fd, IPPROTO_TCP, TCP_NODELAY, (void*)&enable,sizeof(enable));

注:CORK 算法与 Nagle 算法非常类似,感兴趣可自行查阅。

免责声明:文章转载自《浅谈 Linux 下常用 Socket 选项设置》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇地理空间距离计算及优化(依据两个点经纬度计算距离)Xilinx DCM 使用---- 输出频率问题下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

最佳的75个网络安全工具(转)

工具:Nessus(最好的开放源代码风险评估工具) 网址:http://www.nessus.org/类别:开放源码 平台:Linux/BSD/Unix 简介:Nessus是一款可以运行在Linux、BSD、Solaris以及其他一些系统上的远程安全扫描软件。它是多线程、基于插入式的软件,拥有很好 的GTK界面,能够完成超过1200项的远程安全检查,具有强...

linux 下 jmeter 配置

一、在Linux服务器先安装sdk 1、先从客户端下载jdk1.8.0_144.tar.gz,再上传到服务器 2、解压:tar -xzf jdk1.8.0_144.tar.gz,生成文件夹 jdk1.8.0_144 3、在/usr/local目录下创建java文件夹,再将 jdk1.8.0_144目录移动到/usr/local/java中 1)cd /us...

Debian下自动备份文件并上传到远程FTP服务器且删除指定日期前的备份Shell脚本

      说明:  1、备份目录/home/osyunwei下面所有的文件到/home/osyunweibak里面,并且保存为osyunwei20120701.tar.gz的压缩文件格式(2012_07_01是指备份执行时当天的日期),最后只保留最近7天的备份 2、上传/home/osyunweibak里面的备份文件到远程FTP服务器上,并且只保留最近7...

第八章 蜂鸣器驱动

主要看一下:Linux驱动代码重用 编译是由多个文件组成的 Linu x 驱动 对于复杂的 Linux 驱 动,就需要使用多个源代码文件存放不同的功能代码,这样做有利于代码分类和管理。 C或C++语言中编译多个源代码文件时,如果a.c使用 b.c文件中的函数,需要在 a.c 文件中使用 extern 预先定义 b.c中的函数, extern 的作用就是告诉...

linux运维、架构之路-分布式存储Ceph

一、Ceph介绍        Ceph是一个Linux PB级分布式文件系统,能够在维护POSIX兼容性的同时加入了复制和容错功能。Ceph号称高可用的分布式存储系统,通过多个MON节点(通常为3个)维护集群的状态及元数据信息,而真正存储数据的OSD节点通过向MON节点汇报状态,并通过CRUSH算法将数据副本布局到相应OSD的所在磁盘上,完成数据的持久化...

linux系统修改系统时间与时区

  有装过Linux系统的人,可能都会有这样的经历,就是该机器安装windows系统时,时间正确,但是安装了linux系统后,尽管时区选择正确,也会发现系统时间不对。这是由于安装系统时采用了UTC,那么什么是UTC呢,简单的说UTC就是0时区的时间,是国际标准,而中国处于UTC+8时区。   另外还有一种时间是当地时间,而windows采用的就是当地时间...