Flagsmith项目中RouteLoggerMiddleware引发的线程安全问题分析与解决方案

2025-06-06 00:44:56作者：劳婵绚Shirley

问题背景

在Flagsmith API服务中，开发团队发现了一个由中间件引发的线程安全问题。具体表现为当多个线程同时访问Django请求对象时，会出现"dictionary changed size during iteration"的运行时错误。这个问题发生在app_analytics模块的请求追踪功能中，特别是当尝试从请求头中获取环境密钥时。

问题根源分析

经过深入调查，问题的根本原因在于RouteLoggerMiddleware中间件对WSGI环境变量(environ)的修改方式。该中间件在处理请求时直接修改了WSGI环境字典，而与此同时，其他线程可能正在读取这个字典的内容，导致了并发访问冲突。

具体来说，在app_analytics/track.py文件中，当track_request_influxdb_async函数调用track_request_influxdb函数并尝试访问request.headers时，由于中间件正在修改底层环境变量，导致了字典迭代过程中大小变化的异常。

技术细节

WSGI环境变量的线程安全性：在Django/WSGI中，environ字典通常不是线程安全的，特别是在多线程环境下进行读写操作时。
中间件的影响：RouteLoggerMiddleware在请求处理过程中动态修改environ字典，这种修改可能发生在请求生命周期的任何阶段。
异步追踪的挑战：app_analytics模块使用异步方式追踪请求指标，这意味着请求对象可能被多个线程共享访问。

解决方案

针对这个问题，我们提出了以下解决方案：

避免直接传递请求对象：不应该将完整的请求对象直接传递给线程执行的代码，因为Django的请求对象不是线程安全的。
提前提取所需数据：在创建线程之前，从请求对象中提取所有需要的数据，然后只传递这些数据副本给线程。
使用线程安全的数据结构：如果确实需要共享数据，考虑使用线程安全的队列或其他同步机制。
修改中间件行为：重构RouteLoggerMiddleware，使其要么在更早的阶段完成对environ的修改，要么使用线程安全的方式记录路由信息。

实施建议

具体到代码层面，建议进行以下修改：

# 修改前的线程不安全代码
def track_request_influxdb_async(request):
    return track_request_influxdb(request)

# 修改后的线程安全版本
def track_request_influxdb_async(request):
    env_key = request.headers.get("X-Environment-Key")
    # 提取其他必要数据
    return track_request_influxdb(env_key, ...)  # 只传递必要的数据而非整个请求对象