LMDeploy中事件流长连接保持的技术探讨

2025-06-04 19:10:01作者：殷蕙予

事件流连接超时问题背景

在基于HTTP的事件流(Event Stream)通信中，服务器向客户端持续推送数据时，可能会遇到中间网络设备(如网关服务、内容分发节点等)强制断开长时间无数据传输的连接问题。以某CDN服务为例，其默认配置会在响应流停滞100秒后主动断开连接。

技术原理分析

事件流协议规范中明确建议，服务器应定期发送心跳消息(如空行\n或注释行: ping\n)来维持连接活跃。这类心跳消息具有以下特性：

不会影响实际数据内容
不会增加有效载荷大小
被客户端自动忽略
能有效重置各类网络设备的空闲计时器

LMDeploy中的实现考量

在LMDeploy这类大模型推理服务中，当处理以下场景时可能产生长间隔无数据传输：

高并发请求导致计算资源紧张
处理超长上下文时的初始计算(ITL)
系统临时性资源调度延迟

虽然客户端理论上可以调整超时设置，但在实际部署环境中往往存在限制：

云平台中间件(如某些CDN)的固定超时策略
企业网络设备的不可配置超时
浏览器客户端的默认行为

解决方案建议

技术上可通过两种模式实现心跳机制：

请求级定时器：为每个活跃连接维护独立定时器

def handle_request(request):
    timer = threading.Timer(30, lambda: request.write("\n"))
    timer.start()
    try:
        # 正常处理逻辑
    finally:
        timer.cancel()

全局心跳服务：维护活跃连接集合，统一发送心跳

active_connections = set()
heartbeat_thread = threading.Thread(target=send_heartbeats)
heartbeat_thread.start()

def send_heartbeats():
    while True:
        time.sleep(30)
        for conn in active_connections:
            conn.write("\n")