Apache SeaTunnel中Parquet文件读取异常问题分析与解决方案

2025-05-29 08:21:31作者：廉皓灿Ida

问题背景

在使用Apache SeaTunnel进行Hive表数据同步至Doris的过程中，发现当上游Hive表以Parquet格式存储时，部分字符串类型字段在写入下游Doris表时出现数据异常。经过分析，这是由于Parquet文件中的字符串字段被识别为BINARY类型而非STRING类型导致的。

问题现象

上游Hive表结构定义如下：

CREATE TABLE `xxx`.`xxx`(
  `org_openid` string COMMENT 'xxx',
  `is_admin` string COMMENT 'xxx',
  ...
)
PARTITIONED BY (`dt` string)
STORED AS PARQUET

在实际同步过程中，发现：

通过SeaTunnel的ParquetReadStrategy读取文件元数据时，原本定义为STRING类型的字段被识别为BINARY类型
原始逻辑类型(OriginType)显示为null
读取后的字段值以HeapByteBuffer形式存在
即使经过resolveObject方法处理，数据仍保持为字节数组形式
最终写入Doris表的数据出现乱码或异常

根本原因分析

Parquet类型推断问题：Parquet文件格式中，STRING类型实际上是以二进制形式存储的。当Hive表创建时没有明确指定Parquet的字符串编码方式，某些Parquet实现可能不会正确设置逻辑类型标记。
SeaTunnel类型处理机制：当前SeaTunnel的ParquetReadStrategy在遇到BINARY类型且无逻辑类型标记的字段时，会将其视为原始字节数组处理，而不会自动转换为字符串。
类型转换缺失：在resolveObject方法中，虽然有针对STRING类型的处理分支，但对于ByteBuffer类型的输入没有进行额外的字符串转换处理。

解决方案

方案一：用户自定义Schema支持

借鉴OrcReadStrategy中的getSeaTunnelRowTypeInfoWithUserConfigRowType方法，为ParquetReadStrategy实现类似功能：

允许用户在配置中指定字段类型
当用户提供Schema时，优先使用用户定义的类型而非自动推断的类型
对于STRING类型字段，即使底层是BINARY类型也进行强制转换

方案二：智能类型转换增强

在resolveObject方法中增加对ByteBuffer类型的处理：

case STRING:
    if (value instanceof ByteBuffer) {
        return new String(((ByteBuffer) value).array(), StandardCharsets.UTF_8);
    }
    return String.valueOf(value);