深入剖析pylibcudf中使用流进行Parquet读取时的性能问题

2025-05-26 22:05:27作者：胡唯隽

项目地址：https://gitcode.com/gh_mirrors/py/pygdf

在GPU加速数据处理领域，pylibcudf作为Python接口为libcudf提供了便捷的访问方式。近期，pylibcudf新增了流(stream)支持功能，使得开发者能够构建高效的并行数据处理流水线。然而，在实际使用过程中，我们发现当进行小粒度、短时间的Parquet文件读取操作时，性能表现出现了异常情况。

问题现象

当每个read_parquet操作的运行时间小于10毫秒时，原本期望的流水线并行效果消失了。通过性能分析工具nsys的观察，我们发现了两个关键的同步点：

GIL线程同步：表现为pthread_cond_timedwait调用导致的线程等待间隙
CUDA同步：表现为cudaStreamSynchronize调用导致的设备流同步

这些同步操作破坏了不同线程/流之间的并行性，使得性能无法达到预期。

技术分析

通过深入分析，我们发现问题的根源在于pylibcudf内部处理机制：

设备缓冲区转换问题：当pylibcudf获取read_xxx例程产生的unique_ptr或unique_ptr所有权时，没有正确传递流参数
默认流同步：在调用rmm的DeviceBuffer.c_from_unique_ptr时使用了默认流，导致不必要的同步

解决方案验证

通过以下方法验证了解决方案的有效性：

启用PTDS(Per-Thread Default Stream)：虽然初始尝试仅编译libcudf和pylibcudf时效果不明显，但完整启用RMM Python的PTDS支持后，观察到同步行为改善
C++版本对比：使用纯C++的libcudf实现相同功能时，未出现同步问题，确认问题特定于pylibcudf实现
代码修改：通过传递正确的流参数，消除了不必要的同步点