Apache Druid Scan查询结果格式变更解析

2025-05-16 17:49:30作者：裘旻烁

Apache Druid作为一款高性能的实时分析数据库，其查询功能一直是核心特性之一。在版本27及之后的版本中，Scan查询的结果格式发生了一个重要但未在更新日志中明确说明的变化——新增了rowSignature字段。这个变更虽然看似微小，但对于依赖结果格式解析的应用可能产生兼容性影响。

变更内容详解

Scan查询现在返回的JSON结果中，每个批次对象都新增了一个rowSignature字段。这个字段以数组形式详细描述了结果集中每个列的名称和数据类型。例如：

"rowSignature": [
  {"name": "__time", "type": "LONG"},
  {"name": "isRobot", "type": "STRING"},
  ...
]

新旧格式对比

旧版格式（文档示例）：

{
  "segmentId": "...",
  "columns": ["timestamp", "robot", ...],
  "events": [...]
}

新版格式（实际返回）：

{
  "segmentId": "...",
  "columns": ["timestamp", "robot", ...],
  "events": [...],
  "rowSignature": [
    {"name": "timestamp", "type": "STRING"},
    {"name": "robot", "type": "STRING"},
    ...
  ]
}

技术影响分析

类型系统增强：rowSignature提供了完整的类型信息，使客户端能够更精确地处理数据，特别是对于动态类型语言的应用。
向后兼容性：虽然新增字段不会破坏JSON解析，但严格校验JSON结构的应用可能需要更新。
文档同步问题：官方文档未及时更新，可能导致开发者困惑。

最佳实践建议

结果处理：开发Scan查询结果处理器时，应采用宽松的JSON解析策略，忽略未知字段。
类型转换：可以利用rowSignature中的类型信息进行更安全的类型转换，避免直接将字符串数字当作数值处理。
版本适配：如果应用需要同时支持新旧版本，应检查rowSignature是否存在，不存在时回退到基于列名的类型推断。

总结

Apache Druid的这一变更实际上增强了Scan查询的功能性，为结果处理提供了更丰富的元数据。开发者应当及时更新相关处理逻辑，并充分利用新的类型信息来构建更健壮的数据处理管道。同时，这也提醒我们在使用开源组件时，即使小版本更新也需要关注可能的接口变化。

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。