最近负责的项目生产环境久不久会报响应异常的错误,查看相应的NGINX有持续几分钟的连接超时的日志,如下:

upstream timed out (110: Connection timed out) while reading response header from upstream, client

查看相应的access日志,相应时间的请求没有响应码,再看没有响应前的请求日志,发现有几笔持续请求超过设定时长5S的响应时间的请求。查看应用服务器的TCP请求状态,发现有很多是处于CLOSE_WAIT的状态。在不处理的情况下,应用在几分钟后自动恢复。 问题解决方案: 1.个别接口处理耗时较长; 通过排查相应时间段的接口的处理时长,找出耗时超时的接口进行优化,优化思路是看代码逻辑和SQL执行情况,是否数据太多或者查询未走索引。 2.通过以下配置调整,优化应用服务器的TCP请求;

sudo sysctl -a | grep conntrack

sudo sysctl -w net.netfilter.nf_conntrack_max=262144

sudo sysctl -w net.nf_conntrack_max=262144

sudo sysctl -w net.ipv4.tcp_tw_reuse=1

sudo sysctl -w net.ipv4.tcp_tw_recycle=1

sudo sysctl -w net.ipv4.tcp_fin_timeout=30

执行以下命令生效.

sudo sysctl -p

后面通过增加配置备用节点解决该问题,配置如下:

upstream gin_server{

#主节点

server 127.0.0.1:8000;

server 127.0.0.1:8001 backup;#备用节点

}

参考文章

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: