GreptimeDB 中 JSON 日志扁平化处理的技术实现

2025-06-10 21:17:24作者：蔡怀权

The open-source Observability 2.0 database. One engine for metrics, logs, and traces — replacing Prometheus, Loki & ES.

项目地址：https://gitcode.com/GitHub_Trending/gr/greptimedb

在分布式数据库 GreptimeDB 的内部日志处理管道中，JSON 格式日志的处理一直是一个值得优化的技术点。当前系统采用直接将 JSON 对象作为二进制大对象(BLOB)存储的方式，虽然实现简单且性能较高，但在实际使用中却带来了查询和分析的不便。

当前实现的问题分析

现有实现将 JSON 对象整体存储为一个字段，格式为键值对形式，其中值是一个完整的 JSON 字符串。这种设计虽然减少了处理开销，但导致了以下使用问题：

查询时必须先解析整个 JSON 对象才能访问内部字段
无法直接对嵌套字段建立索引
复杂的查询操作需要额外的处理步骤
增加了应用层的解析负担

扁平化处理的优势

JSON 扁平化处理是指将嵌套的 JSON 结构转换为单层键值对的过程。这种处理方式具有以下优势：

查询友好：每个字段都可以直接访问，无需解析
索引支持：可以对任意字段建立索引
简化分析：直接使用 SQL 查询嵌套字段
兼容性好：适用于大多数分析工具

技术实现方案

基本扁平化规则

对于普通嵌套对象，采用点号(.)连接各级键名的方式展开。例如：

{
  "kubernetes": {
    "container": {
      "id": "abc123"
    }
  }
}

将被转换为：

{
  "kubernetes.container.id": "abc123"
}

特殊字段处理

数组处理：遇到数组类型时，将整个数组序列化为 JSON 字符串存储
```
{
  "tags": ["a", "b", "c"]
}
```
转换为：
```
{
  "tags": "[\"a\",\"b\",\"c\"]"
}
```
特殊字符处理：键名中包含点号(.)等特殊字符时，保持原样不做转义
类型保持：原始 JSON 中的数据类型(字符串、数值、布尔值等)在转换后保持不变

深度控制机制

为防止过深的嵌套结构导致性能问题或内存消耗过大，实现中加入了深度控制：

可配置的最大深度限制(默认建议5-7层)
达到最大深度时，剩余部分保持原结构或序列化为字符串
深度统计在递归过程中实时检查

性能优化策略

零拷贝解析：使用高效的 JSON 解析库，避免不必要的数据复制
并行处理：对大批量日志采用并行扁平化处理
内存池：重用内存分配，减少垃圾回收压力
选择性处理：支持配置只处理特定路径的嵌套结构
预处理缓存：对常见结构预先生成处理模板

实际应用场景

这种扁平化处理特别适用于以下场景：

Kubernetes 环境日志处理
应用程序结构化日志收集
物联网设备上报的嵌套数据
微服务架构中的分布式追踪数据
复杂业务对象的存储和分析

实现考量

在实际实现中还需要考虑：

字段名冲突处理策略
超大JSON文档的特殊处理
动态新增字段的支持
与现有查询引擎的兼容性
数据类型映射的一致性

通过这种JSON扁平化处理，GreptimeDB能够在不显著影响性能的前提下，大幅提升嵌套JSON数据的查询便利性和分析效率，为日志分析和业务监控场景提供更好的支持。

The open-source Observability 2.0 database. One engine for metrics, logs, and traces — replacing Prometheus, Loki & ES.

项目地址：https://gitcode.com/GitHub_Trending/gr/greptimedb

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。