ArcticDB中动态模式下不同数值类型列的排序与合并问题分析

2025-07-07 13:52:51作者：郁楠烈Hubert

问题背景

在ArcticDB数据库系统中，当使用动态模式(dynamic_schema)功能时，用户可能会遇到一个关于数值类型处理的问题。具体表现为：当同一列在不同数据段(segment)中存在不同但可提升的数值类型时（例如int32和int64），系统在执行排序和最终化(sort_and_finalize)操作时会抛出类型不匹配异常。

问题现象

用户在使用ArcticDB时，尝试将包含相同列名但不同数值类型的数据写入同一个符号(symbol)中。例如：

第一个数据段中列"a"为int32类型
第二个数据段中列"a"为int64类型

当调用sort_and_finalize_staged_data方法时，系统会抛出"E_ASSERTION_FAILURE Type mismatch in set_scalar, expected 4"的内部异常。值得注意的是，这个异常发生在所有描述符(descriptor)解析完成后的合并阶段，具体是在设置列值时触发的。

技术原理分析

ArcticDB在动态模式下处理数据类型时，流描述符(stream descriptor)会使用valid_common_type来确定最终类型，这通常会选择最大的类型（如int64）。然而，在底层实现中，排序和最终化操作对类型一致性有更严格的要求。

问题的根源在于处理流程中的类型检查不一致性：

描述符合并阶段：使用valid_common_type自动提升类型
数据处理阶段：要求严格类型匹配

这种不一致导致系统在理论上认为类型兼容（因为可以自动提升），但在实际操作中却因类型检查失败而抛出异常。

解决方案探讨

针对这个问题，有两种可能的解决方案：

类型自动提升方案：在数据处理阶段实现与描述符合并阶段一致的类型提升逻辑，将较小类型（如int32）自动提升为较大类型（如int64）。这种方案保持了系统的灵活性，但需要确保所有操作都能正确处理类型提升。
严格类型检查方案：要求所有分段中的同名列必须具有完全相同的类型，与finalize_staged_segments方法的行为保持一致。这种方案实现简单，但限制了用户的使用灵活性。

从系统一致性和用户期望的角度来看，第一种方案更为合理，因为它：