Nightingale 远程写入 Prometheus 时 duplicate sample 问题分析与解决

2025-05-21 14:35:36作者：龚格成

问题现象

在使用 Nightingale 7.4.1 版本时，当配置 Prometheus 的 remote-write 功能将数据写入 Nightingale-center 时，系统日志中频繁出现"duplicate sample for timestamp"的警告信息。这些错误表明存在时间戳重复的样本数据被写入，导致 Prometheus 拒绝接收这些数据。

问题分析

从日志中可以观察到，错误主要发生在处理容器内存映射文件(container_memory_mapped_file)这类指标时。深入分析发现，这是由于数据收集端(categraf)配置不当导致的重复数据收集问题。

具体原因在于：

categraf 以 DaemonSet 方式部署在 Kubernetes 集群中
默认配置会尝试收集 kubelet 的 cadvisor metrics
由于 kubelet 有证书鉴权机制，categraf 无法正常获取这些指标
这种失败状态导致 categraf 不断重试发送初始数据，造成时间戳重复

解决方案

针对这一问题，最有效的解决方法是禁用 categraf 中不必要的 cadvisor 收集模块。具体操作步骤如下：

编辑 categraf 的配置文件
找到与 cadvisor 相关的 input 插件配置
将该插件禁用或移除
重新部署更新后的 categraf

实施这一修改后，无效的收集尝试将被终止，重复数据问题自然解决。

深入理解

在 Prometheus 生态中，"duplicate sample for timestamp"错误是一个常见但重要的问题。它表明对于同一个时间序列（由相同的标签集定义），在相同的时间戳下尝试存储了多个不同的值。Prometheus 的设计不允许这种情况，因为这会破坏时间序列数据的确定性。

对于使用 Nightingale 作为监控系统的用户，理解以下几点有助于避免类似问题：

数据收集端配置应精确匹配实际需要收集的指标
避免多个收集器收集相同的指标源
确保收集器能够正常访问目标指标端点
定期检查系统日志，及时发现并处理数据收集异常

最佳实践建议

精细化配置收集器：只为真正需要的指标配置收集，避免收集不必要或无法访问的指标源。
权限管理：如果确实需要收集受保护的指标（如kubelet metrics），确保收集器配置了正确的认证凭据。
监控收集器状态：建立对收集器本身健康状态的监控，及时发现收集失败的情况。
日志级别调整：对于生产环境，可以适当调整日志级别，避免过多警告日志影响问题排查效率。

通过以上措施，可以有效预防和解决 Nightingale 与 Prometheus 集成中的数据重复问题，确保监控系统的稳定性和数据准确性。

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。