Tornado多进程模式下CPU占用异常问题分析与解决

2025-05-09 22:59:23作者：范靓好Udolf

tornado

项目地址：https://gitcode.com/gh_mirrors/tor/tornado

在Tornado v6.1版本中，当使用多进程模式运行服务时，如果客户端在服务器处理请求过程中提前关闭连接，可能会导致服务器进程CPU占用率飙升到100%。本文将深入分析这一问题的成因，并提供解决方案。

问题现象

开发人员在使用Tornado构建Web服务时发现一个异常现象：

当客户端正常等待请求完成（如超过30秒）时，服务运行正常
当客户端在5秒内主动断开连接时，服务器进程CPU占用率会迅速上升到100%
使用cProfile分析发现，CPU占用高峰时出现了selector相关的异常调用

问题复现

通过以下代码可以复现该问题：

class BaseHandler(RequestHandler):
    @gen.coroutine
    def post(self):
        for i in range(0, 300):
            print("sleep")
            time.sleep(0.1)
        self.write("xxx")

服务启动方式为多进程模式：

app = tornado.web.Application(APP_URLS)
http_server = tornado.httpserver.HTTPServer(app, xheaders=True)
http_server.listen(8080)
http_server.start(num_processes=2)

根本原因

经过分析，问题主要由两个因素共同导致：

错误的进程启动方式：使用listen()方法与多进程模式不兼容。listen()设计用于单进程模式，在多进程环境下会导致资源管理异常。
同步阻塞操作：处理程序中使用time.sleep()进行同步阻塞操作，这会阻止事件循环的正常执行。虽然这不是导致CPU飙升的直接原因，但会加剧问题的影响。

解决方案

正确的多进程启动方式应使用add_sockets()方法：

sockets = tornado.netutil.bind_sockets(8080)
tornado.process.fork_processes(0)  # 0表示自动根据CPU核心数创建进程
server = HTTPServer(app)
server.add_sockets(sockets)

同时，对于需要长时间运行的操作，应使用异步方式：

class BaseHandler(RequestHandler):
    async def post(self):
        for i in range(0, 300):
            print("sleep")
            await gen.sleep(0.1)
        self.write("xxx")