EdgeDB正则表达式匹配功能优化：NULL值处理问题解析

2025-05-16 20:04:00作者：尤峻淳Whitney

在EdgeDB数据库系统中，正则表达式匹配功能是处理文本数据的重要工具。近期开发团队发现并修复了一个关于re_match_all函数返回值处理的问题，该问题影响了正则表达式匹配结果中未匹配分组的表示方式。

问题背景

EdgeDB的re_match_all函数用于执行全局正则表达式匹配，返回所有匹配项及其捕获组。在特定情况下，当正则表达式中包含多个可选分组时，未匹配的分组会返回NULL值，而非预期的空字符串。

问题复现

考虑以下EdgeQL查询示例：

with 
  matches := re_match_all(
    r"(?x)
      (mul\((\d{1,3}),(\d{1,3})\))
      | (don\'t\(\).*?do\(\))
    ",
    <str>$inp
  ),
  
select
  matches

当输入特定字符串时，返回结果中出现了NULL值：

[
  [
    "mul(2,4)",
    "2",
    "4",
    null
  ],
  [
    null,
    null,
    null,
    "don't()_mul(5,5)+mul(32,64](mul(11,8)undo()"
  ],
  [
    "mul(8,5)",
    "8",
    "5",
    null
  ]
]

技术分析

这个问题源于正则表达式引擎与EdgeDB类型系统的交互方式。正则表达式中的每个捕获组在匹配时可能成功或失败：

当使用交替(|)操作符时，只有其中一个分支会匹配
未匹配的分支对应的捕获组会返回NULL
按照常规正则表达式处理惯例，未匹配的组应返回空字符串而非NULL

这种不一致性可能导致下游处理逻辑出现问题，因为：

NULL在数据库中具有特殊语义，表示"未知"或"不存在"
空字符串则是明确的"无内容"表示
许多字符串处理函数对NULL和空字符串的行为不同

解决方案

EdgeDB团队通过修改编译器实现修复了这个问题，确保：

所有未匹配的正则表达式捕获组返回空字符串
保持与常见正则表达式实现(如PCRE)的行为一致性
提高结果的可预测性和易用性

修复后的输出将变为：

[
  [
    "mul(2,4)",
    "2",
    "4",
    ""
  ],
  [
    "",
    "",
    "",
    "don't()_mul(5,5)+mul(32,64](mul(11,8)undo()"
  ],
  [
    "mul(8,5)",
    "8",
    "5",
    ""
  ]
]