Keepalived中VRRP报文长度校验问题分析与解决方案

2025-06-15 11:30:29作者：盛欣凯Ernestine

项目地址：https://gitcode.com/gh_mirrors/ke/keepalived

问题背景

在Keepalived高可用集群中，VRRP协议通过组播报文实现主备节点状态同步。近期有用户报告在特定网络环境下，备份节点频繁出现"ip_tot_len mismatch"告警，导致VRRP状态机异常。该问题主要出现在Mellanox mlx5等物理网卡环境，而virtio等虚拟网卡则不会触发。

技术分析

问题现象

当VRRP报文携带单个VIP地址时，系统会产生如下异常：

实际接收报文长度比IP头部声明的长度多2字节（如42 vs 40）
报文末尾出现2字节的填充数据（00 00）
触发Keepalived的报文校验失败机制

根本原因

经过深入分析，发现这是由以太网帧最小长度限制引起的：

以太网帧最小长度为60字节（不含FCS）
携带单个VIP的VRRPv2报文实际长度为58字节
部分物理网卡驱动会自动添加2字节填充以满足最小长度要求
Keepalived严格校验报文长度，导致误判为非法报文

影响范围

该问题具有以下特征：

主要影响物理网卡（如mlx5、e1000、rtl等）
在Keepalived 1.2.24至2.3.1版本均存在
当VIP数量增加使报文长度≥60字节时问题消失

解决方案

Keepalived社区提供了完善的修复方案，主要包含两个关键改进：

1. IP长度校验优化

if (vrrp->family == AF_INET && ntohs(ip->tot_len) != buflen) {
    if (buflen <= ETH_ZLEN - ETH_HLEN &&
        ntohs(ip->tot_len) < buflen &&
        (buflen - ntohs(ip->tot_len)) % 4 == 2) {
        /* 允许以太网填充 */
    } else {
        /* 记录错误 */
    }
}

2. 预期长度校验优化

if (expected_len != buflen) {
    if (buflen <= ETH_ZLEN - ETH_HLEN &&
        expected_len < buflen &&
        (buflen - expected_len) % 4 == 2) {
        /* 允许以太网填充 */
    } else {
        /* 记录错误 */
    }
}

技术要点

ETH_ZLEN：定义以太网帧最小长度为60字节
ETH_HLEN：标准以太网头部长14字节
填充规则：仅当实际长度不足且差值为2的倍数时才允许

实施建议

建议升级到Keepalived 2.3.1或更新版本
如无法升级，可临时添加多个VIP规避问题
在物理网络环境中应特别注意此问题

该修复方案已合并到Keepalived主分支，有效解决了因以太网填充导致的VRRP报文校验问题，提升了协议在各类网络环境下的兼容性。

项目地址：https://gitcode.com/gh_mirrors/ke/keepalived

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

最新内容推荐

AcFunDown视频下载工具完全指南还在为数字笔记抓狂？这款开源神器让手写批注效率提升300%Windows笔记本电池健康管理全指南：从根源解决电池损耗问题 gmx_MMPBSA分子间相互作用索引错误的深度诊断与解决 Axure RP 11 本地化方案：Mac中文界面优化与原型设计工具汉化全指南如何高效获取教育资源？这款工具让教材下载效率提升80%视频元数据深度编辑：专业技巧与案例网盘直链下载技术解析与应用指南如何用DeepSeek-R1推理模型提升复杂任务解决能力：完整指南 5个突破瓶颈技巧：硬件优化工具让你的电脑性能提升30%

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

flutter_flutter

Oohos_react_native

React Native鸿蒙化仓库

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统