Langroid项目日志系统优化：解决并发任务下的文件描述符耗尽问题

2025-06-15 21:37:23作者：卓艾滢Kingsley

项目简介

Langroid是一个开源的对话AI框架，它提供了构建基于大型语言模型(LLM)的对话系统的工具和组件。该项目采用Python实现，支持多任务并发执行，能够创建复杂的对话流程和任务编排。

问题背景

在分布式系统和高并发应用中，日志记录是一个基础但至关重要的功能。Langroid项目原先使用的RichFileLogger在处理多个异步/并发任务时，会出现"Too many open files"错误。这是由于每个任务都创建了自己的日志文件句柄，当并发任务数量超过系统允许的最大文件描述符数时，就会导致系统资源耗尽。

技术挑战

在多线程/多进程环境下，日志系统需要满足几个关键要求：

线程安全性：多个线程同时写入日志时不能导致数据混乱
资源高效性：避免重复打开文件描述符导致资源浪费
可靠性：确保日志信息不会丢失
性能：日志操作不应成为系统瓶颈

原实现方案中，每个任务独立管理日志文件句柄，导致了文件描述符泄漏的风险。

解决方案

重新设计RichFileLogger

新版本的RichFileLogger采用了以下关键设计：

单例模式：为每个日志文件维护一个全局唯一的logger实例，通过引用计数管理生命周期
线程安全：使用适当的同步机制确保多线程安全写入
资源管理：
- 每个.log文件只保持一个文件描述符
- 写入操作被序列化
- 进程结束时自动关闭文件描述符

移除显式关闭操作

原代码在Task._post_run_loop中显式关闭logger，这在并发场景下可能导致其他正在运行的任务尝试向已关闭的文件写入数据。新版本移除了这一操作，依赖Python的垃圾回收机制和进程退出时的自动清理。

资源限制测试

新增的pytest回归测试套件包含：

验证单例模式和文件描述符共享的正确性
在人为设置的RLIMIT_NOFILE低限制下进行压力测试
- 能够重现原先的崩溃场景
- 验证新方案的稳定性

技术实现细节

单例模式实现

采用模块级变量和类方法结合的方式实现线程安全的单例：

_loggers = {}
_lock = threading.Lock()

class RichFileLogger:
    @classmethod
    def get_logger(cls, filename):
        with _lock:
            if filename not in _loggers:
                _loggers[filename] = cls(filename)
            _loggers[filename]._refcount += 1
            return _loggers[filename]

引用计数管理

每个logger实例维护引用计数，当计数归零时关闭文件：

def close(self):
    with self._lock:
        self._refcount -= 1
        if self._refcount <= 0:
            if self._file is not None:
                self._file.close()
                self._file = None
            _loggers.pop(self.filename, None)

线程安全写入

使用线程锁保护文件写入操作：

def log(self, message):
    with self._lock:
        if self._file is None:
            self._file = open(self.filename, 'a')
        self._file.write(message + '\n')
        self._file.flush()