Keepalived高可用集群中双主现象分析与解决方案

2025-06-15 11:35:39作者：戚魁泉Nursing

现象描述

在基于Red Hat OpenStack Platform 16.2（RHOSP）构建的高可用环境中，使用Keepalived v2.1.5实现VIP漂移时出现异常现象：设计为"主备"模式的两个节点（AlmaLinux 8.8系统）同时进入MASTER状态。日志显示，备节点因"Receive advertisement timeout"超时（默认3个通告周期未收到主节点心跳）后主动升主，而主节点仍保持MASTER状态未降级。

核心问题分析

1. 网络通信异常

日志中关键信息表明备节点无法接收主节点的VRRP通告报文，这通常由以下原因导致：

组播通信故障：VRRP默认使用224.0.0.18组播地址（IPv6为FF02::12），OpenStack虚拟网络可能未正确转发组播流量
防火墙拦截：未放行VRRP协议（IP协议号112）
反向路径过滤：rp_filter参数配置不当（建议设为0或2）

2. 配置缺陷

检查配置文件发现两个典型问题：

IPv6 VIP未遵循规范：首个VIP必须是链路本地地址（fe80::/10）
同步组冗余配置：单实例VRRP配置同步组无实际意义

3. 环境特殊性

OpenStack虚拟化环境存在额外限制：

租户网络默认禁止组播
安全组规则需显式允许VRRP协议
虚拟机间通信可能受网络插件策略影响

解决方案

1. 网络层修复

# 临时关闭反向路径过滤
echo 0 > /proc/sys/net/ipv4/conf/all/rp_filter
echo 0 > /proc/sys/net/ipv4/conf/eth0/rp_filter

# 防火墙规则（IPv6示例）
firewall-cmd --add-rich-rule='rule protocol value="112" accept' --permanent
firewall-cmd --reload

2. 配置优化建议

vrrp_instance esc_control_eth_vrrp {
    interface eth0
    virtual_router_id 10
    priority 100  # 备节点设置为更低值
    advert_int 1  # 缩短通告间隔
    authentication {
        auth_type PASS
        auth_pass 1234
    }
    virtual_ipaddress {
        fe80::1/64 dev eth0  # 必须为首个VIP
        2001:420:27c1:917::420/64
    }
    track_script {
        kad_check_network
    }
}

3. OpenStack特殊配置

在Neutron中启用组播：

[ml2]
extension_drivers = port_security,qos,multicast

配置安全组允许VRRP协议

考虑改用单播模式（需Keepalived 2.0+）：

unicast_src_ip <本机IP>
unicast_peer {
  <对端IP>
}

预防措施

实施配置检查清单：
- 验证priority差值（建议主节点101，备节点100）
- 确保首个VIP为链路本地地址
- 检查通告间隔一致性
建立监控体系：
- 实时检测双主状态
- 日志关键字监控（"Receive advertisement timeout"）
- 定期VRRP报文抓包分析
高可用测试方案：
- 主节点主动故障转移测试
- 网络隔离脑裂测试
- 负载突发场景测试

总结

Keepalived双主问题本质是集群状态同步失败，在虚拟化环境中需特别注意底层网络策略的影响。建议采用"配置检查+网络验证+监控告警"的三层保障机制，同时考虑在OpenStack环境中优先使用单播模式规避组播限制。对于生产环境，应当定期进行故障演练，验证高可用机制的有效性。

keepalived

Keepalived

项目地址：https://gitcode.com/gh_mirrors/ke/keepalived

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

1.1 K

611

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Keepalived高可用集群中双主现象分析与解决方案

现象描述

核心问题分析

1. 网络通信异常

2. 配置缺陷

3. 环境特殊性

解决方案

1. 网络层修复

2. 配置优化建议

3. OpenStack特殊配置

预防措施

总结

热门内容推荐

最新内容推荐

项目优选

Keepalived高可用集群中双主现象分析与解决方案

现象描述

核心问题分析

1. 网络通信异常

2. 配置缺陷

3. 环境特殊性

解决方案

1. 网络层修复

2. 配置优化建议

3. OpenStack特殊配置

预防措施

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选