Presto项目中TPCH连接器数据生成差异问题分析

2025-05-14 02:12:55作者：曹令琨Iris

在Presto数据库项目中，TPCH连接器在Java实现和Prestissimo实现之间存在数据生成差异的问题。本文将深入分析这一问题的根源、影响范围以及解决方案。

问题现象

当执行特定查询时，Java实现的TPCH连接器和Prestissimo实现返回了不同的结果。以查询select l_quantity, l_orderkey from tpch.sf1.lineitem where l_orderkey = 321030为例：

Java实现返回：

0.04 | 321030
0.17 | 321030
0.04 | 321030
0.04 | 321030
0.48 | 321030

而Prestissimo实现返回：

4.0 | 321030
17.0 | 321030
4.0 | 321030
4.0 | 321030
48.0 | 321030

经过技术团队深入调查，发现这一差异源于数据生成阶段的实现问题。具体来说：

数据类型处理差异：Prestissimo实现中使用的decimalToDouble函数在处理小数时存在精度转换问题，导致数值被放大了100倍。
数据生成工具差异：Presto Java实现使用的是符合TPCH规范的数据生成器，而Prestissimo实现基于Velox的TPCH生成器，后者又依赖于DuckDB的dbgen工具。
规范符合性问题：按照TPCH规范，l_quantity等列本应使用Decimal类型，但当前实现中使用了Double类型。

这一问题不仅限于l_quantity列，还涉及多个方面：

技术团队已经采取了以下措施：

核心数值修复：针对l_quantity列的问题，已提交修复PR，调整了decimalToDouble的实现逻辑，确保与Java实现一致。
后续规划：
- 对VARCHAR列的问题将单独处理
- 考虑增强DuckDB的dbgen工具以支持tiny规模因子
- 研究是否应将Double类型改为Decimal类型以符合规范

这一问题给分布式查询引擎的开发提供了几个重要启示：

通过解决这一问题，Presto项目在数据一致性方面又向前迈进了一步，为后续的多引擎协同工作奠定了更坚实的基础。

登录后查看全文