在Solo.io Gloo中实现OpenTelemetry分布式追踪

2025-06-12 07:46:44作者：胡易黎Nicole

概述

在现代微服务架构中，分布式追踪是理解请求在系统中流转路径的关键技术。本文将详细介绍如何在Solo.io Gloo API网关中集成OpenTelemetry(OTel)实现分布式追踪功能，帮助开发者获得请求在网关和下游服务间的完整调用链路。

OpenTelemetry简介

OpenTelemetry是一套开源的观测性框架，提供了统一的协议和工具集来收集、处理和导出遥测数据。与传统的Zipkin、Jaeger等单一解决方案相比，OTel的主要优势在于：

标准化协议：统一了追踪数据的格式和传输方式
多语言支持：提供多种编程语言的SDK实现
可扩展性：支持多种后端存储和分析系统
全栈观测：不仅支持追踪，还支持指标和日志的收集

环境准备

在开始配置前，请确保：

已部署Gloo Gateway 1.13.0或更高版本
拥有集群的管理权限
了解基本的Kubernetes操作

部署OpenTelemetry Collector

OTel Collector是数据处理的核心组件，负责接收、处理和导出追踪数据。在Gloo中部署OTel Collector的步骤如下：

创建OTel Collector配置，包含以下关键部分：
- Receivers：定义数据接收协议（gRPC/HTTP）
- Exporters：配置数据导出目标（如Zipkin）
- Processors：可选的数据处理环节
- Service：将上述组件串联起来

部署OTel Collector到集群：

kubectl apply -n gloo-system -f otel-config.yaml

验证部署状态：
```
kubectl get pods -n gloo-system
```
应该能看到otel-agent和otel-collector的Pod处于Running状态。

配置Zipkin可视化

Zipkin是一个流行的分布式追踪系统，我们将使用它来可视化追踪数据：

部署Zipkin服务：

kubectl -n gloo-system create deployment --image openzipkin/zipkin zipkin
kubectl -n gloo-system expose deployments/zipkin --port 9411 --target-port 9411

配置Gloo Gateway集成

要使Gloo Gateway将追踪数据发送到OTel Collector，需要进行以下配置：

创建OTel Collector的上游定义：

apiVersion: gloo.solo.io/v1
kind: Upstream
metadata:
  name: "opentelemetry-collector"
  namespace: gloo-system
spec:
  useHttp2: true  # OTel Collector使用HTTP/2协议
  static:
    hosts:
      - addr: "otel-collector"
        port: 4317

修改Gateway配置启用OTel追踪：

apiVersion: gateway.solo.io/v1
kind: Gateway
metadata:
  name: gateway-proxy
  namespace: gloo-system
spec:
  httpGateway:
    options:
      httpConnectionManagerSettings:
        tracing:
          openTelemetryConfig:
            collectorUpstreamRef:
              namespace: "gloo-system"
              name: "opentelemetry-collector"

创建测试用的VirtualService：

apiVersion: gateway.solo.io/v1
kind: VirtualService
metadata:
  name: default
  namespace: gloo-system
spec:
  virtualHost:
    domains: ['*']
    routes:
      - matchers: [{ prefix: / }]
        directResponseAction:
          status: 200
          body: 'hello world'

验证追踪功能

完成配置后，可以通过以下步骤验证追踪是否正常工作：

端口转发服务：

kubectl -n gloo-system port-forward deployments/gateway-proxy 8080
kubectl -n gloo-system port-forward deployments/zipkin 9411

发送测试请求：
```
curl http://localhost:8080
```
查看OTel Collector日志：
```
kubectl -n gloo-system logs deployments/otel-collector -f
```
应该能看到包含请求详情的追踪数据。
访问Zipkin界面(http://localhost:9411)查看可视化追踪。

高级配置：自定义Span名称

默认情况下，Gloo会为每个请求生成标准的Span名称。如果需要自定义，可以通过Transformation Filter实现：

apiVersion: gateway.solo.io/v1
kind: VirtualService
metadata:
  name: default
  namespace: gloo-system
spec:
  virtualHost:
    options:
      stagedTransformations:
        regular:
          requestTransforms:
            - requestTransformation:
                transformationTemplate:
                  spanTransformer:
                    name:
                      text: '{{header("Host")}}'  # 使用Host头作为Span名称

也可以为特定路由设置静态描述符：

routes:
- matchers:
   - prefix: /special-route
  options:
    tracing:
      routeDescriptor: "SPECIAL_ROUTE"

状态码处理说明

根据OpenTelemetry语义约定：

1xx/2xx/3xx状态码：Span状态保持未设置(Unset)
4xx/5xx状态码：Span状态标记为错误(Error)

可以通过修改VirtualService中的响应状态码来观察这一行为变化。

总结

通过本文的配置，我们成功在Solo.io Gloo中实现了：

OpenTelemetry Collector的部署
追踪数据的收集和导出
Zipkin可视化界面的集成
自定义Span名称的高级功能

这套方案为微服务架构提供了强大的可观测性支持，帮助开发者快速定位和解决分布式系统中的问题。

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。