Pistache HTTPS 服务器在客户端主机名验证失败时的异常处理问题分析

2025-06-24 11:55:50作者：尤辰城Agatha

pistache

项目地址：https://gitcode.com/gh_mirrors/pis/pistache

在 Pistache 开源 HTTP 服务器项目中，近期发现了一个与 HTTPS 连接处理相关的严重问题。当客户端（如 cURL 8.9.0 及以上版本）在进行 TLS 主机名验证失败时，服务器会变得无响应，只能通过重启服务来恢复。

问题现象

当 Pistache HTTPS 服务器配置了不符合客户端验证要求的证书（如缺少 SAN 扩展或 CN 不匹配），且客户端启用了主机名验证（cURL 默认行为）时，服务器会进入异常状态。具体表现为：

客户端发送请求后，服务器不再处理后续任何请求
虽然应用层代码仍能执行请求处理逻辑，但 SSL_write 调用不再被执行
客户端只能收到空响应

根本原因分析

经过深入调查，发现问题源于 OpenSSL 错误队列的处理机制。当客户端（如新版本 cURL）在验证失败时不发送 TLS close_notify 消息而直接关闭连接时：

SSL_read 返回 <=0（表示读取失败）
SSL_get_error 返回 SSL_ERROR_SSL（致命错误）
OpenSSL 错误队列中会记录 SSL routines::unexpected eof while reading 错误
由于错误队列未被清空，导致后续所有 SSL I/O 操作不可靠

这与 OpenSSL 文档中明确指出的要求相违背："当前线程的错误队列在尝试 TLS/SSL I/O 操作前必须为空，否则 SSL_get_error 将无法可靠工作"。

解决方案

修复方案相对简单但有效：在 SSL_read 失败后，主动清空 OpenSSL 错误队列。具体实现是在 Transport::handleIncoming 方法中添加错误队列清理逻辑：

bytes = SSL_read(reinterpret_cast<SSL*>(peer->ssl()),
               buffer + totalBytes,
               static_cast<int>(Const::MaxBuffer - totalBytes));
if (bytes <= 0) {
    int ssl_get_error_res = SSL_get_error(
        reinterpret_cast<SSL*>(peer->ssl()),
        static_cast<int>(bytes));
    while (ERR_get_error() != 0); // 清空错误队列
    retry = (ssl_get_error_res == SSL_ERROR_WANT_READ);
}

验证测试

为了验证修复效果，开发了一个专门的测试用例，通过 SSL_CTX_set_quiet_shutdown 显式禁用客户端的关闭通知发送：

TEST(https_server_test, basic_tls_request_with_no_shutdown_from_peer) {
    // 配置服务器和客户端
    // 启用quiet shutdown模拟客户端不发送关闭通知
    SSL_CTX_set_quiet_shutdown(reinterpret_cast<SSL_CTX*>(sslctx), 1);
    
    // 执行多次请求验证服务器稳定性
    for (const auto& req_i : { 0, 1, 2, 3 }) {
        res = curl_easy_perform(curl);
        EXPECT_EQ(res, CURLE_OK);
        EXPECT_EQ(buffer, "Hello, World!");
    }
}