Kubespray中DHCP客户端配置导致网络服务故障的分析与解决

2025-05-13 18:50:47作者：齐冠琰

在Kubernetes集群部署工具Kubespray的使用过程中，当在Debian系统上运行时，可能会遇到一个隐蔽但严重的问题：DHCP租约到期后节点会失去网络连接。这个问题的根源在于DHCP客户端(dhclient)的配置文件中域名相关参数缺少必要的引号，导致与resolvconf工具的兼容性问题。

问题现象

部署完成后，系统表面看起来运行正常，但当DHCP租约到期时，节点会突然失去网络连接。检查发现，这是由于网络服务(networking.service)无法正常工作导致的，进而影响了DHCP租约的续订过程。

根本原因

问题出在Kubespray生成的dhclient.conf配置文件中，特别是supersede domain-name和supersede domain-search这两个参数的格式不正确。在Debian系统上，当使用resolvconf工具管理DNS配置时，这些参数必须用引号括起来才能被正确解析。

错误的配置格式示例：

supersede domain-name cluster.local;
supersede domain-search default.svc.cluster.local,svc.cluster.local;

正确的配置格式应该是：

supersede domain-name "cluster.local";
supersede domain-search "default.svc.cluster.local,svc.cluster.local";

技术细节

DHCP客户端与resolvconf的交互：在Linux系统中，dhclient负责获取网络配置，而resolvconf则负责管理系统的DNS解析配置。当两者配合不当时，会导致DNS配置无法正确更新。
参数格式要求：
- 域名服务器列表(domain-name-servers)不应使用引号
- 域名(domain-name)和搜索域(domain-search)必须使用引号
影响范围：主要影响使用resolvconf的Debian系系统，其他不使用resolvconf的发行版可能不会表现出这个问题。

解决方案

Kubespray社区已经提出了修复方案，通过修改模板文件，确保不同类型的参数采用正确的格式：

对于域名服务器列表(domain-name-servers)，保持无引号格式
对于域名相关参数(domain-name和domain-search)，自动添加引号

修复后的模板逻辑如下：

{% for key, val in dhclient_supersede.items() | rejectattr(1, '==', []) -%}
{% if key == "domain-name-servers" -%}
supersede {{ key }} {{ val | join(',') }};
{% else -%}
supersede {{ key }} "{{ val | join('","') }}";
{% endif -%}
{% endfor %}