Apache Arrow在SSHFS文件系统上的读取优化问题分析

2025-05-14 16:03:11作者：袁立春Spencer

Arrow是一个跨语言的内存格式，主要用于高效地传输和存储数据。它的特点是高效、灵活、易于使用等。适用于数据传输和存储场景。

项目地址：https://gitcode.com/GitHub_Trending/arrow3/arrow

Apache Arrow作为一个高性能的内存数据交换格式，在处理大数据集时表现出色。然而，近期有用户报告在使用SSHFS挂载远程文件系统时遇到了一个特定问题：通过read_parquet函数可以正常读取Parquet文件，但使用open_dataset后调用collect方法时却会失败。

问题现象

当用户通过SSHFS 3.7.3挂载远程文件系统并尝试读取Parquet文件时，发现两种不同的读取方式产生了截然不同的结果。直接使用read_parquet函数能够成功读取数据，而采用open_dataset配合collect的组合方式则会抛出"fcntl(fd, F_RDADVISE, ...) failed"的错误，提示"Invalid argument"。

技术背景

这个问题的根源在于文件系统预读取优化机制。F_RDADVISE是Unix系统中的一个文件控制操作，用于向操作系统提供关于未来读取模式的提示，使系统能够进行更有效的预读取和缓存优化。在Apache Arrow的实现中，open_dataset与collect的组合会触发这种优化机制。

问题分析

深入分析代码后发现，ReadRangeCache::Cache类中实现了对F_RDADVISE系统调用的使用。当底层文件系统（如某些版本的SSHFS）不支持或不完全实现这一功能时，就会导致操作失败。值得注意的是：

read_parquet采用直接读取方式，不涉及预读取优化
open_dataset配合collect的组合会尝试使用预读取优化
SSHFS 2.10版本工作正常，而3.7.3版本出现问题的现象表明这是SSHFS实现上的一个变化

解决方案

Apache Arrow开发团队迅速响应，提出了一个优雅的解决方案：在ReadRangeCache::Cache实现中，对WillNeed操作相关的错误进行容错处理。具体来说：

当检测到F_RDADVISE操作失败时，不应中断整个读取过程
应该降级为不使用预读取优化的方式继续操作
这种处理方式既保持了性能优化，又提高了兼容性

技术启示

这个案例为我们提供了几个重要的技术启示：

文件系统抽象层的复杂性：不同文件系统实现的功能支持程度各不相同
性能优化与兼容性的平衡：优化功能需要具备优雅降级的能力
错误处理的必要性：对非关键路径上的操作失败应有妥善处理机制

总结

Apache Arrow团队通过这个问题进一步优化了文件读取的健壮性，使得在各种文件系统环境下都能保持稳定的性能表现。这一改进不仅解决了SSHFS下的特定问题，也为其他可能不支持完整POSIX文件操作接口的文件系统提供了更好的兼容性。

对于大数据处理系统的开发者而言，这个案例提醒我们在实现性能优化时，必须同时考虑各种运行环境的差异性，确保核心功能在各种条件下都能可靠工作。

Arrow是一个跨语言的内存格式，主要用于高效地传输和存储数据。它的特点是高效、灵活、易于使用等。适用于数据传输和存储场景。

项目地址：https://gitcode.com/GitHub_Trending/arrow3/arrow

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

flutter_flutter

Ascend Extension for PyTorch

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

ohos_react_native

React Native鸿蒙化仓库

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力