simdjson 库中处理不完整 JSON 数据的解决方案探索

2025-05-10 11:28:36作者：龚格成

背景介绍

在 Presto Java 迁移到基于 Velox 库的 Presto C++（Prestissimo）的过程中，开发团队遇到了 JSON 解析行为不一致的问题。特别是 json_extract SQL 函数在处理不完整 JSON 字符串时的行为差异，这在实际生产环境中是一个常见需求。

Presto Java 的 JSON 解析器能够容忍不完整的 JSON 输入，例如：

SELECT json_extract('{"a": 123, "b', '$.a');

这样的查询在 Presto Java 中可以成功执行并返回 123，但在使用 simdjson 的 Presto C++ 实现中会失败，因为 simdjson 严格执行 JSON 格式规范，会检查闭合的大括号和引号。

simdjson 库在解析 JSON 时有两个关键检查点：

这些严格检查保证了 JSON 解析的正确性，但也限制了处理不完整数据的能力。

开发团队提出了几种技术方案：

最终方案结合了多种技术手段：

该方案已在生产环境中通过验证：

这一案例展示了几个重要的技术实践：

对于需要处理不规范数据的场景，这种可控的宽松解析模式提供了有价值的解决方案，同时保持了核心功能的严格性。

登录后查看全文