Substrait项目v0.70.0版本发布：Hash Equijoin操作符排序保证移除解析

2025-07-03 21:40:56作者：韦蓉瑛

Substrait是一个用于定义跨平台数据计算的标准中间表示（IR）的开源项目。它旨在为不同计算引擎（如Spark、Presto、Flink等）提供统一的查询计划表示，使得不同系统之间可以无缝交换执行计划。Substrait通过定义标准化的操作符和数据类型，实现了跨系统的互操作性。

在最新发布的v0.70.0版本中，Substrait项目对Hash Equijoin操作符的语义进行了重要变更，移除了该操作符在特定情况下保持输入顺序的保证。这一变更虽然看似微小，但对查询优化器的实现和查询计划的生成有着深远影响。

Hash Equijoin排序保证的历史背景

在之前的版本中，Substrait规范明确指出Hash Equijoin操作符在INNER JOIN情况下会保持左输入集的顺序。这一保证源于某些特定实现场景下的观察：当构建端（build side）输入完全适合内存，且探测端（probe side）输入在单线程中流式处理时，INNER JOIN确实可以保持探测端的顺序。

这种保证在简单场景下看似合理，但实际上隐含了特定的实现假设。它假设了哈希表完全驻留内存、单线程执行等理想条件，这在现代分布式数据处理系统中往往不成立。

移除排序保证的技术考量

v0.70.0版本移除了这一排序保证，主要基于以下技术原因：

内存限制的现实性：在实际生产环境中，构建端数据往往无法完全装入内存，需要溢出到磁盘。这种情况下，保持探测端顺序变得极其困难甚至不可能。
并行处理的普遍性：现代数据处理系统普遍采用并行执行策略。在多线程或多节点环境下并行处理探测端输入时，保持全局顺序需要额外的同步开销，这与哈希连接的高效性目标相悖。
实现多样性：不同系统对哈希连接的实现策略差异很大。有些实现可能选择保持顺序作为优化手段，而有些则不会。规范层面的保证限制了实现的选择空间。
语义清晰性：INNER JOIN被特别列出而其他连接类型没有类似保证，这在语义上不够一致。实际上，某些OUTER JOIN在特定条件下同样可以保持顺序。