Apache Arrow项目中Parquet-arrow-fuzz模块的空指针解引用问题分析

2025-05-15 05:51:31作者：晏闻田Solitary

Apache Arrow作为高性能数据分析领域的重要开源项目，其Parquet模块在处理列式存储数据时发挥着关键作用。近期在代码审计过程中，我们发现了一个值得关注的安全隐患——在parquet-arrow-fuzz模块中存在的空指针解引用问题。

问题背景

该问题出现在Parquet文件格式与Arrow内存格式之间的转换过程中，具体涉及Schema字段的列表类型处理。当系统尝试将一个Parquet的GroupNode转换为SchemaField时，在ListToSchemaField函数中发生了空指针解引用。

技术细节分析

问题根源位于src/parquet/arrow/schema.cc文件的第680行。当处理列表类型字段时，代码直接对shared_ptr执行operator->操作，而没有事先检查指针的有效性。这种编程疏忽在遇到特定构造的异常输入文件时，会导致程序访问空指针而崩溃。

从调用栈可以看出，这个错误发生在SchemaManifest::Make过程中，该过程负责构建Parquet到Arrow的schema映射关系。具体流程是：

FileReader初始化时调用SchemaManifest::Make
通过NodeToSchemaField处理schema节点
遇到列表类型时调用ListToSchemaField
在未验证指针有效性的情况下直接访问成员

影响评估

这种空指针解引用问题虽然不会直接导致远程代码执行等严重安全问题，但会造成服务拒绝(DoS)攻击面。攻击者可以精心构造异常的Parquet文件，使得依赖Arrow库的服务在处理该文件时崩溃。

特别是在大数据处理场景下，这种崩溃可能导致整个数据处理流水线中断，影响业务连续性。对于需要高可用性的在线服务系统，此类问题尤为关键。

解决方案

修复该问题的正确做法是在解引用指针前添加有效性检查。标准的防御性编程实践要求：

对智能指针使用get()方法获取原始指针
显式检查指针是否为nullptr
在无效情况下返回错误状态或抛出异常

这种处理方式既符合C++最佳实践，又能保证程序的健壮性。同时，建议在代码审查时特别注意所有智能指针的使用场景，确保都有适当的空指针检查。

经验总结

这个案例给我们几点重要启示：

即使使用智能指针也不能完全避免空指针问题
边界条件检查在文件格式解析中尤为重要
Fuzz测试是发现此类问题的有效手段
防御性编程应该成为基础设施代码的基本要求

对于大数据处理系统开发者，这个案例提醒我们要特别注意输入验证和错误处理，特别是在处理来自不可信源的复杂文件格式时。

arrow

Apache Arrow is the universal columnar format and multi-language toolbox for fast data interchange and in-memory analytics

项目地址：https://gitcode.com/GitHub_Trending/arrow3/arrow

登录后查看全文

项目优选

收起

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

MindQuantum is a general software library supporting the development of applications for quantum computation.

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

1.11 K

682