Zenoh项目中Liveliness Token未声明消息的路由器重复问题分析

2025-07-08 04:10:06作者：裘旻烁

zenoh unifies data in motion, data in-use, data at rest and computations. It carefully blends traditional pub/sub with geo-distributed storages, queries and computations, while retaining a level of time and space efficiency that is well beyond any of the mainstream stacks.

项目地址：https://gitcode.com/gh_mirrors/ze/zenoh

问题背景

在Zenoh分布式系统中，Liveliness机制用于跟踪系统中活跃的节点和资源。当节点声明(declare)一个token时，表示该节点对特定资源保持活跃状态；当取消声明(undeclare)时，则表示该节点不再保持该资源的活跃状态。这些声明和取消声明的消息需要在系统中正确传播，以确保所有相关方都能准确了解系统状态。

问题现象

在Zenoh的某个版本更新后，系统中出现了Liveliness Token未声明消息(Undeclare)在路由器间重复传播的问题。具体表现为：

当节点按顺序执行以下操作时：
- 声明Token(K)
- 声明Subscriber(K)
- 取消声明Token(K)
未声明消息会在内部路由器和外部路由器之间产生不必要的重复传播。
在没有路由器的简单对等网络中，系统行为符合预期，未声明消息只会被正确传播一次。

技术分析

正常行为机制

在理想情况下，Zenoh的Liveliness机制应该遵循以下原则：

声明Token的节点应该能够接收到关于该Token的所有更新，包括其他节点对该Token的声明和取消声明。
订阅了特定Token的节点应该能够接收到该Token的所有状态变更通知。
路由器应该确保消息不会在网络中无限循环或重复传播。

问题根源

经过分析，问题出现在路由器的消息处理逻辑中：

当节点取消声明Token时，消息首先被发送到内部路由器。
内部路由器处理后，又将消息传播到外部路由器。
外部路由器再次将消息传播回系统，导致消息被重复处理。

这种重复传播不仅浪费网络资源，还可能导致系统状态的不一致。

解决方案思路

针对这一问题，正确的解决方案应该：

保持节点能够接收到自己声明的Token的所有更新这一核心功能。
确保路由器不会重复传播未声明消息，无论是内部路由器还是外部路由器。
维护系统在各种操作顺序下的一致性，包括先声明后订阅或先订阅后声明等不同场景。

系统影响

这个问题虽然看似简单，但对系统的影响不容忽视：

网络资源浪费：重复的消息传播会消耗额外的带宽和处理能力。
状态一致性风险：重复的未声明消息可能导致某些节点错误地认为Token已被多次取消声明。
性能下降：额外的消息处理会增加系统延迟，特别是在大规模部署时。

最佳实践建议

基于这一问题的分析，我们建议在实现类似系统时：

实现明确的消息传播路径控制机制，防止消息环路。
为不同类型的消息设计清晰的传播规则。
在路由器中实现消息去重机制，特别是对于状态变更类消息。
建立完善的测试用例，覆盖各种操作顺序的组合场景。

总结

Zenoh中的Liveliness机制是保证分布式系统可靠性的重要组成部分。正确处理Token声明和未声明消息的传播对于维护系统状态一致性至关重要。通过分析这一问题，我们不仅解决了具体的bug，也为类似分布式系统的设计提供了有价值的经验。未来在系统设计中，应当特别注意状态传播机制的正确性和高效性，避免类似问题的发生。

zenoh