Polars内存优化：处理大规模数据时的异常内存消耗问题分析

2025-05-04 05:06:18作者：薛曦旖Francesca

问题背景

在使用Polars处理大规模数据集时，我们发现了一个有趣的内存消耗异常现象：当加载一个包含500万行的单列数据时，内存消耗反而比加载仅包含6万行数据的列要少得多。这种现象与常规认知相悖，通常我们会预期处理更多数据需要更多内存资源。

问题重现

通过分析具体案例，我们发现：

数据集包含约3%的"ICE"类别数据和0.016%的"TGV"类别数据
约10%的行具有"is_final=True"标记
最终"final & ICE"组合约有500万行
最终"final & TGV"组合仅有6万行

当使用Polars执行过滤查询时，处理6万行"TGV"数据时内存消耗达到5-6GB，而处理500万行"ICE"数据时却几乎没有明显内存增长。

技术分析

经过深入调查，我们发现这一异常现象与以下几个技术因素相关：

字典编码与字符串展开

Polars在处理某些类别数据时，会采用不同的内部表示方式：

对于高频出现的类别（如"ICE"），Polars能够直接在字典编码形式下执行过滤操作
对于低频出现的类别（如"TGV"），Polars会将字典编码的类别完全展开为字符串后再进行过滤

这种差异导致了内存消耗的巨大不同，字符串展开操作会显著增加内存使用量。

并行处理策略的影响

测试表明，使用不同的并行处理策略会对性能产生显著影响：

默认设置下，低频类别过滤性能较差
显式设置parallel="prefiltered"可使运行时间降低约20倍
新版流式引擎在特定配置下也能避免此问题

数据分布与内存管理

问题的核心在于数据分布特性与内存管理策略的交互：

高频类别数据分布均匀，过滤操作可以高效执行
低频类别需要从大数据集中提取少量数据，但中间过程未能及时释放内存
大数据块同时展开导致瞬时内存峰值

解决方案与优化建议

针对这一问题，我们推荐以下解决方案：

使用新版流式引擎：通过.collect(engine="streaming")可以显著降低内存使用
调整并行策略：设置parallel='prefiltered'参数优化低频类别处理
版本选择：Polars 1.14版本不存在此问题，可考虑降级使用
数据预处理：将大数据集拆分为更小的文件有助于降低内存峰值

技术启示

这一案例为我们提供了宝贵的经验：

大数据处理框架的性能表现高度依赖于数据分布特征
内存管理策略需要针对不同数据模式进行优化
框架的默认配置可能不适合所有场景，需要根据实际情况调整
流式处理引擎在处理特定模式数据时具有明显优势

通过理解这些底层机制，我们可以更有效地使用Polars处理各种规模的数据集，避免潜在的性能陷阱。

polars

由 Rust 编写的多线程、向量化查询引擎驱动的数据帧技术

项目地址：https://gitcode.com/GitHub_Trending/po/polars

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

135

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN开源社区的核心管理仓库，包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息

554

110