GPUOpenAnalytics/pygdf项目中Parquet文件GDS读取优化实践

2025-05-26 10:29:06作者：曹令琨Iris

项目地址：https://gitcode.com/gh_mirrors/py/pygdf

背景介绍

在GPU加速数据处理场景中，使用GDS(GPU Direct Storage)技术能够显著提升存储I/O性能。但在实际使用GPUOpenAnalytics/pygdf项目时，开发者发现某些Parquet文件读取仍会触发主机内存中转，导致非预期的性能波动。本文将深入分析这一现象的技术原理，并提供优化方案。

GDS技术原理与配置要点

GDS技术允许GPU直接访问存储设备，避免了传统I/O路径中主机内存的中转。要实现GDS功能，需要满足以下条件：

正确配置cufile.json文件
设置KVIKIO_COMPAT_MODE=OFF环境变量
确保系统硬件支持NVIDIA GPUDirect Storage

问题现象分析

在特定场景下，即使正确配置了GDS，系统仍会出现以下现象：

主机内存与设备内存间的数据拷贝(MemcpyHtoD)
读取操作分为两个阶段：初始的FileHandle::pread()调用和后续大量posix_device_read操作
性能表现不稳定，部分文件读取速度明显下降

根本原因解析

经过代码分析，发现问题源于cuDF内部的I/O策略决策机制：

阈值控制机制：cuDF通过is_device_read_preferred函数判断是否使用GDS，默认阈值为1MB(KVIKIO模式)或128KB(GDS模式)
小IO优化：当请求的I/O大小低于阈值时，系统会回退到传统主机内存中转模式
内存管理：KvikIO使用动态分配的弹跳缓冲区(bounce buffer)处理小IO请求，而非预分配的内存池

优化方案与实践

针对上述问题，我们提供以下优化建议：

1. 调整GDS阈值

通过设置环境变量可降低GDS使用阈值：

export KVIKIO_GDS_THRESHOLD=1  # 单位为字节

测试表明，此调整可使读取时间从43ms降至17ms，性能提升显著。

2. Parquet文件写入优化

在生成Parquet文件时，可增大数据页大小：

# 使用pyarrow写入时调整参数
parquet.write_table(table, 'data.parquet', row_group_size=1000000)

较大的数据页能确保单个I/O请求超过GDS阈值。

3. 内存管理建议

虽然当前KvikIO未使用预分配内存池，但开发者应注意：

RMM已能有效管理设备内存分配
主机侧内存分配对性能影响较小，但大量小IO仍可能导致瓶颈
对于性能敏感场景，建议监控内存分配行为

性能对比与建议

优化前后的主要差异体现在：

I/O路径：纯GDS路径避免了主机内存中转
吞吐量：实测读取吞吐量提升2-3倍
延迟：端到端延迟降低60%以上

对于生产环境部署，建议：

统一文件规范，确保数据页大小合理
在集群范围内统一GDS相关环境变量配置
对关键应用进行性能基准测试

总结

GPUOpenAnalytics/pygdf项目中的GDS优化实践表明，理解底层I/O决策机制对性能调优至关重要。通过合理配置GDS阈值和优化文件结构，可以充分发挥GPU直连存储的性能优势。未来随着KvikIO内存管理的改进，小IO场景下的性能还有进一步提升空间。

cudf

项目地址：https://gitcode.com/gh_mirrors/py/pygdf

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781