urllib3项目中的SSL证书验证问题解析：如何处理带下划线的AWS S3域名

2025-06-17 12:39:44作者：廉皓灿Ida

问题背景

在使用Python的urllib3库访问AWS S3存储桶时，开发者可能会遇到一个特殊的SSL证书验证问题。当存储桶名称包含下划线字符（如"cs_sample_feed"）时，urllib3会抛出"Hostname mismatch"错误，提示证书验证失败。这个问题看似简单，但背后涉及多个技术层面的复杂因素。

技术原理分析

1. 主机名验证机制

现代SSL/TLS实现通常执行两种形式的主机名验证：

检查证书的Common Name (CN)字段
检查Subject Alternative Names (SANs)扩展字段

在示例中，AWS S3提供的证书CN为"*.s3.amazonaws.com"，理论上应该匹配所有子域名。然而，当域名包含下划线时，OpenSSL的验证机制会认为这是一个无效的主机名。

2. 下划线在域名中的特殊性

虽然RFC标准允许在域名中使用下划线，但OpenSSL的实现对此有特殊限制：

OpenSSL将下划线视为主机名验证中的非法字符
这种限制源于OpenSSL对主机名而非域名的严格验证
许多其他工具（如curl、浏览器）使用更宽松的验证策略

3. urllib3的验证流程

urllib3底层依赖Python的ssl模块，而后者又基于OpenSSL。当遇到包含下划线的域名时，整个验证链会失败：

urllib3创建SSL连接
Python的ssl模块调用OpenSSL进行验证
OpenSSL拒绝包含下划线的域名

解决方案比较

不推荐的解决方案

禁用主机名验证：

context = ssl.create_default_context()
context.check_hostname = False

这种方法虽然简单，但完全放弃了主机名验证，存在严重的安全风险。

与requests库集成

对于使用requests库的开发者，可以通过自定义适配器实现相同功能：

from requests.adapters import HTTPAdapter
from urllib3.util import parse_url

class HTTPSAdapter(HTTPAdapter):
    def send(self, request, **kwargs):
        _, _, host, _, _, _, _ = parse_url(request.url)
        self.init_poolmanager(
            self._pool_connections,
            self._pool_maxsize,
            block=self._pool_block,
            assert_hostname=host,
        )
        return super().send(request, **kwargs)