最近很长一段时间,千寻影视的服务器状况不佳,一到晚上高峰时间便访问经常出问题,症状表现为:
- 不管调用哪个接口,服务器响应快的时候非常快,慢的时候又非常慢,即便是访问一个最简单的nginx的状态页(跟业务逻辑无关)都是如此
- 查看nginx日志,可以发现超量的超时 upstream timed out (110: Connection timed out) while reading response header from upstream
- 用xhprof对PHP的执行进行跟踪,又可以发现很多访问在PHP端执行了非常非常长的时间才返回,而且这些请求的时间都消耗在了PDO::__construct函数上
很是头疼,请教了很多以前的老同事,也在他们的帮助下调整了很多参数,始终是没能够解决问题。最后不经意的在这台服务器上对nginx的状态页运行了ab( apache benchmark )测试,报出错误apr_socket_recv: Connection timed out (110),之后顺藤摸瓜找到这篇文章然后深入了解才最终解决了问题。
解决办法如其所述,对ip_conntrack的两个参数进行设置即可,不过在centos上,需要这样设置:
vi /etc/sysctl.conf net.ipv4.netfilter.ip_conntrack_max = 655350 net.ipv4.netfilter.ip_conntrack_tcp_timeout_established = 1200 #默认超时时间为5天,作为一个主要提供HTTP服务的服务器来讲,完全可以设置得比较短 sysctl -p # 让刚刚修改过的设置生效
如果在执行sysctl -p 时提示错误 unknown key,那么表示内核版本比较高,参数名称已经改为
net.netfilter.nf_conntrack_max = 655350 net.netfilter.nf_conntrack_tcp_timeout_established = 1200
至于为什么会有这样的设置,这个设置的作用是什么,就要从NAT说起了。NAT(Network Address Translation,网络地址转换)是将IP数据报报头的IP地址转化成另外一个IP地址的过程,主要用来实现局域网内的机器访问公共网络(俗称外网)的功能。公共IP地址是指在因特网上全球唯一的IP地址,RFC 1918协议还为局域网预留出了三个IP不会在公网上进行分配的地址块:
- 10.0.0.0~10.255.255.255
- 172.16.0.0~172.31.255.255
- 192.168.0.0~192.168.255.255
这些IP地址就可以用来分配给局域网上的各种设备,这些设备在访问外网时,就需要通过一台NAT服务器进行路由转换,通常情况下,路由器就兼备了这样一个功能。除了路由器,也可以配置linux服务器实现NAT功能。ip_conntrack就是linux NAT的一个跟踪连接条目的模块,ip_conntrack模块会使用一个哈希表记录 tcp 通讯协议的 established connection记录,当这个哈希表满了的时候,便会导致nf_conntrack: table full, dropping packet错误。
关于如何优化conntrack模块,有一篇文章对此进行了解释,Netfilter conntrack performance tweaking, v0.8,为了访问方便,我这里也留一个备份地址 netfilter_conntrack_perf-0.8.txt。
查看目前 ip_conntrack 配置的值
> cat /proc/sys/net/ipv4/ip_conntrack_max > cat /proc/sys/net/ipv4/netfilter/ip_conntrack_tcp_timeout_established # 高版本系统路径为 > cat /proc/sys/net/netfilter/nf_conntrack_max > cat /proc/sys/net/netfilter/nf_conntrack_tcp_timeout_established
查看目前 ip_conntrack buffer 的使用状况
> cat /proc/sys/net/ipv4/netfilter/ip_conntrack_count > grep conntrack /proc/slabinfo ip_conntrack 38358 64324 304 13 1 : tunables 54 27 8 : slabdata 4948 4948 216 # 高版本系统路径有变更 > cat /proc/sys/net/netfilter/nf_conntrack_count
其中各个数字的含义为:
38358 the number of currently active objects 64324 the total number of available objects 304 the size of each object in bytes 13 the number of pages with at least one active object
查出目前 ip_conntrack 记录最多的前十名 IP
> cat /proc/net/ip_conntrack | cut -d ' ' -f 10 | cut -d '=' -f 2 | sort | uniq -c | sort -nr | head -n 10 # 结果示例 # 6801 127.0.0.1 # 3993 122.224.190.62 # 1101 183.28.42.100 # 1004 222.73.254.95 # 549 120.42.98.143 # 483 114.135.81.206 # 460 123.154.46.196 # 431 222.242.121.122 # 410 125.33.21.174 # 312 222.211.218.59