Darts项目中DataFrame性能优化：解决高度碎片化警告

2025-05-27 08:02:17作者：秋阔奎Evelyn

问题背景

在Darts项目的时间序列生成工具测试中，出现了一个关于Pandas DataFrame性能的警告。当在timeseries_generation.py文件中执行values_df[i] = 0操作时，系统会抛出"DataFrame is highly fragmented"的性能警告。这个警告表明DataFrame存在严重的碎片化问题，通常是由于多次调用frame.insert操作导致的。

技术原理分析

DataFrame碎片化问题本质上是内存管理问题。当通过循环或多次单独操作向DataFrame添加列时，Pandas需要在内存中不断重新分配空间，这会导致：

内存使用效率低下
操作速度显著下降
可能引发内存碎片

Pandas官方文档明确指出，这种操作模式性能较差，建议使用更高效的方法如pd.concat(axis=1)一次性合并所有列。

解决方案对比

项目贡献者提出了两种解决方案并进行性能对比：

原有方法

df1[ind] = 0

优化方法

dict_of_cols = {}
list_0 = [0] * len(df)
dict_0 = {n: list_0 for n in ind}
df = pd.concat([df, pd.DataFrame(dict_0)], axis=1).sort_index(axis=1)

性能测试结果显示，优化后的字典方法比原有方法快约17.6倍。这种性能提升在大规模数据处理时尤为明显。

实现细节

优化方案的核心思想是：

预先构建包含所有新列数据的字典
一次性将字典转换为DataFrame
使用concat方法合并原有DataFrame和新列
最后按索引排序确保列顺序正确

这种方法避免了循环添加列导致的多次内存分配，显著提高了性能。

实际应用建议

在处理时间序列数据时，尤其是需要动态添加多列的场景，开发者应当：

尽量避免循环添加列的操作
优先考虑批量构建数据后一次性合并
对于固定值填充，可以使用广播机制
必要时使用frame.copy()获取去碎片化的新DataFrame

总结

Darts项目通过这次优化，不仅消除了性能警告，还显著提升了时间序列生成工具的执行效率。这个案例展示了在数据处理过程中，合理的内存管理策略对性能的重要影响。对于类似的时间序列处理项目，这种优化思路具有很好的参考价值。

darts

A python library for user-friendly forecasting and anomaly detection on time series.

项目地址：https://gitcode.com/gh_mirrors/da/darts

登录后查看全文

项目优选

收起

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

Darts项目中DataFrame性能优化：解决高度碎片化警告

问题背景

技术原理分析

解决方案对比

原有方法

优化方法

实现细节

实际应用建议

总结

热门内容推荐

最新内容推荐

项目优选

Darts项目中DataFrame性能优化：解决高度碎片化警告

问题背景

技术原理分析

解决方案对比

原有方法

优化方法

实现细节

实际应用建议

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选