Kùzu数据库大容量数据导入时的内存溢出问题分析与优化建议

2025-07-03 11:34:57作者：昌雅子Ethen

问题背景

在使用Kùzu数据库处理大规模数据导入时，用户遇到了内存溢出(Out of Memory)的问题。具体场景是：尝试将90GB的Parquet文件数据导入到Kùzu数据库时，虽然运行环境配置了32GB内存，但系统仍然出现内存不足的情况。

Kùzu数据库从0.7.0版本开始引入了数据溢出到磁盘的功能，允许大规模数据导入操作自动将部分数据写入磁盘而非完全驻留内存。这一机制理论上应该能够支持超过物理内存容量的数据导入。

然而在实际操作中，我们发现几个关键因素会影响内存使用：

缓冲池管理：Kùzu使用缓冲池来管理内存，默认配置会占用80%的系统内存。在32GB内存环境中，这意味着约25.6GB会被分配给缓冲池。
并行处理：数据导入时的并行线程数会显著影响内存峰值使用量。更多线程意味着更高的并发内存需求。
数据转换开销：当通过Python将Parquet文件转换为Pandas DataFrame再导入时，会产生额外的内存开销，这部分内存不被Kùzu的缓冲池管理机制所跟踪。

根据用户提供的测试数据，处理22GB输入数据时：

这表明当前版本在某些场景下可能存在内存使用效率问题，特别是当通过Python接口进行复杂的数据处理流程时。

建议绕过Python中间处理环节，直接使用Kùzu的COPY命令从Parquet文件导入数据。这可以避免Pandas DataFrame带来的额外内存开销。

通过设置buffer_pool_size参数可以手动控制Kùzu使用的内存量。在内存受限的环境中，建议适当降低此值以留出更多内存给系统和其他处理环节。

使用CALL threads=x;命令限制数据导入时的并行线程数，可以有效降低内存峰值需求。

对于节点存在性检查，使用Kùzu内置的MERGE语句比在Python中实现更高效，能减少内存使用。

对于超大规模数据，可以考虑：

Kùzu团队已经注意到当前版本在大规模数据导入时的性能问题，并正在进行优化工作。主要改进方向包括：

对于需要处理超大规模数据的用户，建议关注Kùzu的后续版本更新，特别是针对大数据量场景的性能优化改进。

登录后查看全文