Thanos Receive组件自定义Cap'n Proto端口配置实践

2025-05-17 15:21:16作者：姚月梅Lane

问题背景

在Thanos监控系统的实际部署中，我们经常需要根据生产环境的具体需求对默认端口进行调整。近期在将Thanos从0.33版本升级到0.37版本时，发现Receive组件在使用Cap'n Proto复制协议时存在一个配置问题：虽然通过--receive.capnproto-address参数指定了自定义端口(10910)，但组件仍然尝试使用默认端口(19391)进行通信。

问题现象分析

在配置文件中明确设置了以下参数：

--receive.replication-protocol=capnproto 
--receive.capnproto-address=0.0.0.0:10910

通过系统命令检查可以看到10910端口确实处于监听状态，但同时观察到组件仍然尝试连接其他节点的19391端口，导致连接超时。日志中显示的错误信息明确指出了这一行为：

failed to dial peer host03:19391: dial tcp 10.41.1.67:19391: connect: connection timed out

根本原因

经过深入分析发现，Thanos Receive组件的Cap'n Proto通信端口配置需要同时在两个地方进行设置：

通过命令行参数--receive.capnproto-address设置本地监听端口
在hashring配置文件中为每个节点指定其Cap'n Proto通信端口

原配置中只完成了第一项设置，而忽略了第二项配置，导致虽然本地正确监听了10910端口，但节点间通信时仍然使用默认端口。

解决方案

正确的配置方法是在hashring配置文件中为每个节点添加capnproto_address字段，示例如下：

[
    {
        "endpoints": [
            {
                "address": "host01:10907",
                "capnproto_address": "host01:10910"
            },
            {
                "address": "host02:10907",
                "capnproto_address": "host02:10910"
            },
            {
                "address": "host03:10907",
                "capnproto_address": "host03:10910"
            }
        ]
    }
]

配置验证

完成上述配置后，可以通过以下方法验证配置是否生效：

检查10910端口是否处于监听状态
观察日志中是否还有连接19391端口的尝试
确认Prometheus的remote write功能恢复正常
检查节点间的复制通信是否正常建立

最佳实践建议

端口规划：在生产环境中提前规划好各类服务的端口使用，避免冲突
配置检查：升级Thanos版本时，仔细检查新功能的配置要求
防火墙设置：确保所有必要的端口在防火墙规则中开放
日志监控：定期检查Thanos组件日志，及时发现通信异常
文档参考：在进行配置变更时，仔细阅读对应版本的官方文档

总结

Thanos Receive组件的Cap'n Proto协议端口配置需要注意完整的配置链，包括本地监听端口和集群节点间通信端口的设置。通过本文的分析和解决方案，可以帮助其他遇到类似问题的用户快速定位和解决问题，确保Thanos集群的正常运行。在复杂的生产环境中，细致的配置检查和验证是保证系统稳定性的关键。

thanos

Highly available Prometheus setup with long term storage capabilities. A CNCF Incubating project.

项目地址：https://gitcode.com/gh_mirrors/than/thanos

登录后查看全文