RAPIDS cuDF项目中的Parquet混合编码读取性能优化分析

2025-05-26 16:52:55作者：滑思眉Philip

背景介绍

在数据处理领域，Apache Parquet是一种广泛使用的列式存储格式，而RAPIDS cuDF是基于GPU加速的数据处理库。当使用cuDF读取由PyArrow生成的Parquet文件时，特别是包含高基数字符串列的文件时，会遇到性能瓶颈问题。

问题本质

PyArrow 18.1.0版本后，默认情况下会优先使用字典编码(dictionary encoding)来存储字符串列，当字典过大时再回退到普通编码(plain encoding)。这种混合编码方式导致cuDF在读取时需要执行两次解压缩操作：

第一次解压缩针对字典编码部分
第二次解压缩针对普通编码部分

这种双重解压操作显著增加了读取时间，特别是第一次解压操作性能通常较差。

性能对比

通过实际测试可以观察到明显的性能差异：

读取默认PyArrow写入的混合编码Parquet文件：约122毫秒
读取禁用字典编码后写入的Parquet文件：约66毫秒

性能差距接近一倍，这对于大规模数据处理场景来说影响显著。

技术细节分析

问题的核心在于cuDF当前的实现方式：

字典页需要先解压，因为分块读取器(chunked reader)使用字典数据作为子过程计算的一部分
数据页的解压依赖于字典数据来确定子过程
当使用分块读取时，无法避免这些单独的解压调用

潜在优化方案

针对这一问题，可以考虑以下几种优化路径：

合并解压调用：当不使用分块读取时，可以将字典页和数据页的解压操作合并为单个调用，然后在设备上继续解码
主机端解压字典：在主机端解压字典页，在设备上继续解码过程
混合解码策略：在主机端解压和解码字典页，在设备上解压和解码普通页，最后合并结果

实际应用影响

在NDS-H SF10基准测试中，可以观察到：

lineitem表：cuDF和PyArrow都产生混合编码
supplier表：仅PyArrow产生混合编码
partsupp表：PyArrow和cuDF都产生混合编码
part表：PyArrow和cuDF都产生混合编码
orders表：PyArrow和cuDF都产生混合编码
customer表：仅PyArrow产生混合编码

这种不一致的行为表明cuDF在某些情况下也会产生混合编码列，这需要进一步调查。

结论与展望

Parquet文件的混合编码读取性能问题是实际应用中常见的瓶颈。通过优化解压策略，特别是针对非分块读取场景，可以显著提升cuDF的Parquet读取性能。未来的工作可以集中在实现上述优化方案，并深入理解cuDF产生混合编码列的条件，以提供更一致的性能表现。

对于数据工程师和科学家来说，了解这一性能特征有助于在实际工作中做出更明智的存储格式选择，特别是在处理高基数字符串列时，可以考虑禁用字典编码以获得更好的读取性能。

cudf

cuDF - GPU DataFrame Library

项目地址：https://gitcode.com/gh_mirrors/cu/cudf

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

458

453

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

RAPIDS cuDF项目中的Parquet混合编码读取性能优化分析

背景介绍

问题本质

性能对比

技术细节分析

潜在优化方案

实际应用影响

结论与展望

热门内容推荐

最新内容推荐

项目优选

RAPIDS cuDF项目中的Parquet混合编码读取性能优化分析

背景介绍

问题本质

性能对比

技术细节分析

潜在优化方案

实际应用影响

结论与展望

相关内容推荐

热门内容推荐

最新内容推荐

项目优选