Telegraf解析JSON数组数据的最佳实践

2025-05-14 14:31:38作者：钟日瑜

背景介绍

在使用Telegraf处理NATS服务器传输的JSON数组数据时，许多开发者会遇到解析问题。特别是当数据格式为包含多个对象的JSON数组时，如何正确解析每个对象成为关键挑战。

问题分析

典型场景中，开发者会收到如下格式的JSON数据：

[
  {
    "runId":"R_20240924-1249",
    "testName":"Test",
    "nodeName":"Test-Node",
    // 其他字段...
  },
  {
    "runId":"R_20240924-1249",
    "testName":"Test",
    "nodeName":"Test-Node",
    // 其他字段...
  }
]

使用传统的json_v2解析器时，可能会遇到以下问题：

整个数组被当作单个消息处理
无法正确区分字段类型（字符串/数值）
标签和字段的区分不够明确

解决方案

使用xpath_json解析器

推荐使用xpath_json解析器替代json_v2，它能更好地处理JSON数组结构。配置示例如下：

[[inputs.nats_consumer]]
  servers = ["nats://localhost:4222"]
  subjects = ["nats.subject.requestsraw"]
  data_format = "xpath_json"
  xpath_native_types = true
  
  # 排除不需要的字段
  fieldexclude = ["timeStamp", "requestName", "nodeName"]

  [[inputs.nats_consumer.xpath]]
    metric_name = "'requestsRaw'"
    metric_selection = "/*"
    timestamp = "timeStamp"
    timestamp_format = "unix_ms"
    field_selection = "*"
    
    # 明确指定标签
    [inputs.nats_consumer.xpath.tags]
      request = "requestName"
      node = "nodeName"

配置要点解析

字段类型处理：
- 启用xpath_native_types = true可自动识别数值类型
- 使用fieldexclude排除不需要的字段
标签与字段分离：
- 在[inputs.nats_consumer.xpath.tags]中明确指定作为标签的字段
- 其余字段自动转为数值或字符串类型的值
时间戳处理：
- 使用timestamp指定时间戳字段
- timestamp_format支持多种格式，包括unix毫秒时间戳

高级配置技巧

对于更复杂的场景，可以采用显式配置方式：

[[inputs.nats_consumer.xpath]]
  metric_name = "'custom_metric'"
  
  # 显式定义字段
  [inputs.nats_consumer.xpath.fields]
    connectTime = "number"
    count = "number"
    errorCount = "number"
    
  # 显式定义标签
  [inputs.nats_consumer.xpath.tags]
    runId = "runId"
    testName = "testName"