首页
/ GlareDB v25.5.11版本发布:增强Parquet文件处理能力

GlareDB v25.5.11版本发布:增强Parquet文件处理能力

2025-07-10 16:37:29作者:咎竹峻Karen

GlareDB是一个开源的分布式数据库系统,专注于高性能的数据处理和分析。它支持多种数据源和格式,特别擅长处理大规模数据集。本次发布的v25.5.11版本主要针对Parquet文件格式的处理能力进行了多项增强和优化。

Parquet元数据功能增强

新版本引入了对glob模式的支持,允许用户在parquet_metadata和parquet_rowgroup_metadata等函数中使用通配符模式匹配多个文件。这一改进极大地简化了批量处理Parquet文件时的操作流程,用户不再需要逐个指定文件名。

时间戳处理优化

在Parquet文件读取方面,v25.5.11版本修复了INT64物理类型作为微秒级时间戳的解析问题。现在系统能够正确识别和处理这种特殊的时间戳格式,确保了时间数据的准确读取和转换。

多路径文件读取支持

新增了对文件路径列表的支持,用户现在可以向read_parquet、read_csv等文件读取函数传递一个路径列表,系统会自动合并这些文件的数据。这一功能特别适合处理分片存储的数据集,大大提升了数据加载的灵活性。

列级元数据查询功能

v25.5.11版本新增了parquet_column_metadata函数,可以查询Parquet文件中各列的详细元数据信息。同时,原有的parquet_rowgroup_metadata函数也进行了改进,增加了行组序号(ordinal)列,使得元数据查询结果更加完整和易于理解。

底层优化与测试增强

在底层实现上,新版本修复了部分Parquet解码器在处理定义级别(definition levels)时的问题,提高了数据读取的准确性和稳定性。开发团队还添加了针对分区表的ClickBench测试用例,确保系统在处理分区数据时的性能和正确性。

这些改进使得GlareDB在处理Parquet格式数据时更加高效和可靠,特别是在大数据量场景下,能够提供更好的性能和更丰富的元数据查询能力。对于数据分析师和数据工程师来说,这些增强功能将显著提升工作效率。

登录后查看全文
热门项目推荐
相关项目推荐