Backstage项目中OpenTelemetry指标丢失问题的分析与解决

2025-05-05 21:20:52作者：郜逊炳

问题背景

在Backstage项目中使用OpenTelemetry进行应用监控时，开发人员遇到了一个棘手的问题：虽然OpenTelemetry的指标端口(默认9464)能够正常访问，但只能看到基础的初始化指标，而来自各个插件的自定义指标却全部丢失。这个问题在Backstage 1.36.1版本后开始出现，影响了开发环境下的监控功能。

问题现象

当开发人员通过yarn dev命令启动Backstage实例后，访问http://localhost:9464/metrics端点时，只能看到如下基本指标信息：

# HELP target_info Target metadata
# TYPE target_info gauge
target_info{...} 1
# no registered metrics

而正常情况下，这里应该包含丰富的插件指标数据。通过深入分析，发现instrumentation.js文件中的初始化代码被执行了两次，导致OpenTelemetry的全局状态被重置。

根本原因

经过技术团队深入调查，发现问题源于Node.js模块加载机制与Backstage CLI工具的交互方式：

Backstage CLI在启动时会通过--require参数加载instrumentation.js文件
同时，CLI内部会创建一个独立的上下文环境来执行模块转换
根据Node.js文档，--require加载的模块会被同时加载到主线程和任何工作线程中
这种双重加载导致OpenTelemetry SDK被初始化两次
最终结果是插件指标被注册到了错误的指标注册表中，而不是导出器关联的那个

解决方案

针对这个问题，Backstage技术团队提出了一个简单而有效的解决方案：在instrumentation.js文件顶部添加主线程检查逻辑。具体实现如下：

const { isMainThread } = require('node:worker_threads');

if (isMainThread) {
  const { NodeSDK } = require('@opentelemetry/sdk-node');
  const { getNodeAutoInstrumentations } = require('@opentelemetry/auto-instrumentations-node');
  const { PrometheusExporter } = require('@opentelemetry/exporter-prometheus');

  const prometheus = new PrometheusExporter();
  const sdk = new NodeSDK({
    metricReader: prometheus,
    instrumentations: [getNodeAutoInstrumentations()],
  });

  sdk.start();
}

这个解决方案通过worker_threads模块检查当前执行环境是否为主线程，确保OpenTelemetry SDK只会在主线程中被初始化一次。这样既保留了原有的功能，又避免了重复初始化导致的问题。

技术要点

Node.js模块加载机制：理解Node.js如何处理--require参数和模块加载对于解决这类问题至关重要。模块会被加载到所有线程环境中，而不仅仅是主线程。
OpenTelemetry全局状态：OpenTelemetry SDK维护全局状态，重复初始化会导致指标注册混乱。这种设计在大多数情况下是合理的，但在特定场景下需要特别注意。
Worker Threads检测：使用worker_threads模块检测执行环境是一个可靠的解决方案，它直接利用了Node.js提供的原生能力。