Vector高可用部署：多节点集群搭建指南

2026-02-04 04:40:34作者：蔡丛锟

概述

在生产环境中，单点故障是 observability（可观测性）数据管道的致命弱点。Vector 作为高性能的数据收集、转换和路由工具，支持多种高可用部署模式。本文将详细介绍如何构建 Vector 多节点集群，确保数据处理的可靠性和连续性。

高可用架构设计

集群拓扑模式

Vector 支持两种主要的高可用部署模式：

flowchart TD
    A[数据源 Sources] --> B[Vector Agent 集群]
    B --> C[负载均衡器]
    C --> D[Vector Aggregator 集群]
    D --> E[目标存储 Sinks]
    
    subgraph AgentLayer [Agent 层 - 无状态]
        B1[Agent Node 1]
        B2[Agent Node 2]
        B3[Agent Node 3]
    end
    
    subgraph AggregatorLayer [Aggregator 层 - 有状态]
        D1[Aggregator Node 1]
        D2[Aggregator Node 2]
        D3[Aggregator Node 3]
    end
    
    B1 --> C
    B2 --> C
    B3 --> C
    C --> D1
    C --> D2
    C --> D3

关键组件说明

组件类型	角色	状态管理	扩展性
Agent	数据收集器	无状态	水平扩展
Aggregator	数据处理中心	有状态	垂直扩展

Kubernetes 集群部署

StatefulSet 配置

Vector Aggregator 推荐使用 StatefulSet 部署，确保有状态服务的稳定性：

apiVersion: apps/v1
kind: StatefulSet
metadata:
  name: vector-aggregator
  labels:
    app.kubernetes.io/name: vector
    app.kubernetes.io/component: Aggregator
spec:
  replicas: 3
  serviceName: vector-headless
  podManagementPolicy: Parallel
  selector:
    matchLabels:
      app.kubernetes.io/name: vector
  template:
    spec:
      containers:
      - name: vector
        image: timberio/vector:0.49.0-distroless-libc
        args: ["--config-dir", "/etc/vector/"]
        ports:
        - name: vector-api
          containerPort: 8686
        - name: vector-data
          containerPort: 6000
        volumeMounts:
        - name: data
          mountPath: "/vector-data-dir"
        - name: config
          mountPath: "/etc/vector/"
  volumeClaimTemplates:
  - metadata:
      name: data
    spec:
      accessModes: ["ReadWriteOnce"]
      storageClassName: "fast-ssd"
      resources:
        requests:
          storage: 50Gi

Service 配置

创建 Headless Service 用于内部发现：

apiVersion: v1
kind: Service
metadata:
  name: vector-headless
  labels:
    app.kubernetes.io/name: vector
spec:
  clusterIP: None
  ports:
  - name: vector
    port: 6000
    targetPort: 6000
  - name: api
    port: 8686
    targetPort: 8686
  selector:
    app.kubernetes.io/name: vector

配置管理

多节点配置策略

# vector-aggregator-config.yaml
sources:
  # 集群内部通信
  cluster_input:
    type: vector
    address: "0.0.0.0:6000"
  
  # 外部数据输入
  external_input:
    type: http
    address: "0.0.0.0:8080"

transforms:
  # 数据预处理
  process_data:
    type: remap
    inputs: ["cluster_input", "external_input"]
    source: |
      .host = get_hostname!()
      .timestamp = now()
      .node_id = get_env_var!("VECTOR_NODE_ID")

sinks:
  # 集群内部输出
  cluster_output:
    type: vector
    inputs: ["process_data"]
    address: "vector-headless.default.svc.cluster.local:6000"
    healthcheck: false
  
  # 最终输出到存储
  final_output:
    type: elasticsearch
    inputs: ["process_data"]
    endpoints: ["http://elasticsearch:9200"]
    index: "logs-%{+YYYY.MM.dd}"

负载均衡策略

客户端负载均衡

sinks:
  balanced_output:
    type: vector
    inputs: ["processed_data"]
    addresses:
      - "vector-aggregator-0.vector-headless.default.svc.cluster.local:6000"
      - "vector-aggregator-1.vector-headless.default.svc.cluster.local:6000"
      - "vector-aggregator-2.vector-headless.default.svc.cluster.local:6000"
    request:
      retry_attempts: 3
      retry_initial_backoff_secs: 1
      retry_max_backoff_secs: 10

服务端负载均衡

使用 Kubernetes Service 进行负载均衡：

apiVersion: v1
kind: Service
metadata:
  name: vector-service
spec:
  type: LoadBalancer
  ports:
  - port: 6000
    targetPort: 6000
  selector:
    app.kubernetes.io/name: vector

数据持久化策略

磁盘缓冲区配置

# 启用磁盘缓冲区防止数据丢失
sinks:
  elasticsearch_output:
    type: elasticsearch
    inputs: ["processed_data"]
    endpoints: ["http://elasticsearch:9200"]
    buffer:
      type: disk
      max_size: 10737418240  # 10GB
      when_full: block

持久化卷配置

# PVC 配置示例
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  name: vector-data-pvc
spec:
  accessModes:
    - ReadWriteOnce
  resources:
    requests:
      storage: 100Gi
  storageClassName: fast-ssd

监控与健康检查

健康检查配置

# liveness 和 readiness 探针
livenessProbe:
  httpGet:
    path: /health
    port: 8686
  initialDelaySeconds: 30
  periodSeconds: 10

readinessProbe:
  httpGet:
    path: /health
    port: 8686
  initialDelaySeconds: 5
  periodSeconds: 5

监控指标收集

sources:
  internal_metrics:
    type: internal_metrics
    scrape_interval_secs: 15

sinks:
  prometheus_output:
    type: prometheus_exporter
    inputs: ["internal_metrics"]
    address: "0.0.0.0:9090"

故障转移与恢复

自动故障转移策略

sequenceDiagram
    participant A as Agent
    participant LB as Load Balancer
    participant N1 as Node 1
    participant N2 as Node 2
    participant N3 as Node 3
    
    A->>LB: 发送数据
    LB->>N1: 路由到主节点
    Note over N1: 正常处理
    
    N1-->>LB: 健康检查失败
    LB->>N2: 自动切换到备用节点
    Note over N2: 接管处理
    N2->>N3: 数据同步
    Note over N3: 备份节点就绪

数据恢复机制

# 启用数据确认机制
sinks:
  elasticsearch_output:
    type: elasticsearch
    inputs: ["processed_data"]
    endpoints: ["http://elasticsearch:9200"]
    request:
      in_flight_limit: 100
      timeout_secs: 60
      rate_limit_duration_secs: 1
      rate_limit_num: 1000
    acknowledgements: true

性能优化配置

资源限制与请求

resources:
  requests:
    memory: "2Gi"
    cpu: "1000m"
  limits:
    memory: "4Gi"
    cpu: "2000m"

并发处理配置

# 优化并发性能
transforms:
  high_performance_processing:
    type: remap
    inputs: ["source_data"]
    source: |
      # 高性能处理逻辑
    runtime:
      num_threads: 4
      buffer_size: 1000

安全配置

网络策略

apiVersion: networking.k8s.io/v1
kind: NetworkPolicy
metadata:
  name: vector-network-policy
spec:
  podSelector:
    matchLabels:
      app.kubernetes.io/name: vector
  policyTypes:
  - Ingress
  - Egress
  ingress:
  - from:
    - podSelector:
        matchLabels:
          app.kubernetes.io/component: Agent
    ports:
    - protocol: TCP
      port: 6000
  egress:
  - to:
    - podSelector:
        matchLabels:
          app: elasticsearch
    ports:
    - protocol: TCP
      port: 9200

部署验证

集群状态检查

# 检查 StatefulSet 状态
kubectl get statefulset vector-aggregator

# 检查 Pod 状态
kubectl get pods -l app.kubernetes.io/name=vector

# 检查服务发现
kubectl exec vector-aggregator-0 -- nslookup vector-headless

# 测试数据流
kubectl exec vector-agent-pod -- curl -X POST http://vector-service:6000 -d 'test message'

性能监控指标

指标名称	描述	健康阈值
vector_processed_events_total	处理事件总数	持续增长
vector_processing_errors_total	处理错误数	< 1%
vector_buffer_usage_ratio	缓冲区使用率	< 80%
vector_uptime_seconds	运行时间	> 86400