Pacemaker 2.1.10-rc1发布：高可用集群管理的关键更新

2025-07-05 22:32:08作者：虞亚竹Luna

项目简介

Pacemaker是一个开源的高可用性集群资源管理器，作为Linux集群架构中的核心组件，它能够检测和恢复节点和服务级别的故障。Pacemaker通过监控集群状态并根据配置的策略自动做出响应，确保关键业务服务的持续可用性。该项目广泛应用于金融、电信、云计算等领域，为关键业务系统提供稳定可靠的高可用保障。

主要更新内容

核心功能优化

本次发布的Pacemaker 2.1.10-rc1版本在远程节点管理方面做出了重要改进。调度器现在不再默认隔离在线的远程节点，而是引入了一个新的集群选项来启用这种隔离行为。这一变更使得管理员能够更灵活地控制远程节点的管理策略，特别是在混合云或分布式环境中，可以根据实际需求选择是否自动隔离远程节点。

在资源管理方面，当资源出现严重故障时，Pacemaker现在会将失败计数设置为INFINITY（无限大），这一改变使得系统能够更准确地识别和处理不可恢复的故障状态。同时，对于未管理资源的父资源，系统现在会正确地将其视为在节点上处于活动状态，这解决了之前版本中可能导致资源状态误判的问题。

系统集成增强

针对systemd集成的改进是本次更新的另一亮点。Pacemaker现在能够更准确地检测systemd启动/停止操作的完成状态，并修复了systemd资源覆盖的问题。这些改进显著提升了与systemd的交互可靠性，特别是在复杂的服务依赖场景下。

在构建系统方面，修复了Fedora 42及以上版本中pacemaker-remoted默认路径的问题，确保了在不同Linux发行版上的兼容性。同时，executor组件修复了关机时的use-after-free问题，提高了系统稳定性。

属性管理改进

pacemaker-attrd组件（属性管理守护进程）在本版本中获得了多项重要修复：

改进了对等节点名称管理，确保在节点加入集群时正确传播节点名称信息
防止了在对等节点离开时可能出现的段错误
优化了属性值的写入逻辑，避免不必要的磁盘操作
实现了节点XML ID的独立跟踪机制，不再依赖属性值

这些改进使得集群属性管理更加健壮，特别是在大规模集群或网络不稳定的环境中。

内存管理与安全修复

开发团队解决了多个内存管理问题，包括：

修复了获取额外schema时的TOCTOU（检查时间与使用时间）竞态条件问题
在子进程退出时正确清理库内存
修复了systemd_proxy为NULL时的内存泄漏问题

这些修复提升了系统的安全性和稳定性，减少了潜在的内存泄漏和竞态条件导致的问题。

技术实现细节

在底层实现上，本次更新大量使用了pcmk__cluster_get_xml_id()API来获取集群XML ID，提高了代码的一致性和可维护性。libcrmcluster组件增强了对远程节点的检测能力，使得peer缓存更加准确可靠。

对于操作超时的处理，修复了get_op_total_timeout函数中的迭代错误，确保资源操作能够按照预期的时间限制执行。pacemaker-remoted组件改进了schema失败时的退出代码，使得问题诊断更加方便。

开发者API变更

本次版本引入了pcmk_common_cleanup()API，为开发者提供了更完善的公共资源清理机制。这一变更虽然微小，但为未来的扩展和维护打下了良好基础。

总结

Pacemaker 2.1.10-rc1作为2.1.10版本的候选发布，在稳定性、安全性和功能性方面都做出了显著改进。特别是对远程节点管理、systemd集成和属性管理的增强，使得这一版本更适合现代分布式环境的需求。开发团队对内存管理和竞态条件的关注也体现了对系统健壮性的持续追求。对于运行关键业务的高可用集群环境，升级到这个版本将获得更好的可靠性和管理体验。

pacemaker

Pacemaker is an advanced, scalable High-Availability cluster resource manager

项目地址：https://gitcode.com/gh_mirrors/pa/pacemaker

登录后查看全文