Apache TrafficServer 10.1版本中的源端连接复用问题分析

2025-07-09 14:50:48作者：董宙帆

Apache TrafficServer是一款高性能的开源网络加速和缓存服务器。在10.1版本中，用户报告了一个关于源端(origin)连接无法复用的严重问题，这直接影响了服务器的性能和资源利用率。本文将深入分析该问题的技术背景、原因及解决方案。

问题现象

在TrafficServer 10.1版本的生产环境部署中，运维人员观察到以下两个关键指标显示几乎没有源端连接复用：

这种情况在使用全局连接池共享(proxy.config.http.server_session_sharing.pool)的环境中尤为明显。连接无法复用意味着每次请求都需要建立新的TCP连接，增加了延迟和服务器负载。

TrafficServer通过连接池机制来复用与源服务器的连接，这是提高性能的关键技术。连接池需要正确识别和管理每个连接的目标服务器信息，特别是当使用SNI(Server Name Indication)扩展时。

SNI是TLS协议的扩展，允许客户端在握手阶段就指明它要连接的主机名，这对虚拟主机的支持至关重要。在TrafficServer中，SNI信息用于匹配和复用连接。

通过代码回退测试，确认问题源于对NetVConnection类的修改，特别是移除了与服务器名称相关的功能。具体来说：

原本使用NetVConnectin::get_sni_servername()方法，该方法内部调用OpenSSL的SSL_get_servername()函数，这个函数对入站和出站连接都有效。
修改后使用TLSSNISupport::get_sni_server_name，但这个方法只对入站连接有效，因为_sni_server_name成员变量只在入站连接时设置。

这种改变导致连接池无法正确识别出站连接的SNI信息，从而无法找到匹配的连接进行复用。

正确的解决方案应该是在建立出站连接时，当调用SSL_set_tlsext_host_name设置SNI主机名时，同时更新TLSSNISupport中的_sni_server_name。这可以通过以下方式实现：

该问题在10.1版本中被引入，影响了所有使用SNI和连接池共享的环境。修复后，连接复用率恢复正常，显著降低了建立新连接的开销。

对于生产环境，建议受影响的用户升级到包含修复的版本，或者回退相关修改。该问题的修复也提醒我们在重构网络核心组件时需要全面考虑各种使用场景，特别是涉及性能关键路径的部分。

对于类似的高性能网络加速服务器：

通过这次问题的分析和解决，TrafficServer的连接池机制得到了进一步的完善，为后续版本提供了更稳定的基础。

登录后查看全文