Darts项目中模型文件大小优化策略

2025-05-27 11:10:27作者：段琳惟

背景介绍

在使用Darts项目进行时间序列预测时，用户经常会遇到保存的模型文件过大的问题。特别是当使用LightGBM等机器学习算法训练全局预测模型时，保存的模型文件可能超过1GB，这对生产环境部署带来了存储和性能方面的挑战。

经过深入分析，我们发现Darts模型文件过大的原因主要有两个方面：

训练数据存储：当模型在单个时间序列上训练时，Darts默认会将训练序列存储在training_series属性中。这虽然简化了预测过程（用户不需要再次提供输入序列），但也显著增加了模型文件大小。
多模型副本：对于多步预测模型，Darts会为每个预测步长创建独立的模型副本。例如，当output_chunk_length设置为30时，系统会存储30个独立的LightGBM模型实例，每个实例约35MB，导致总模型体积大幅增加。

对于不需要自动预测功能的场景，可以通过以下方式移除存储的训练数据：

model.training_series = None
model.past_covariate_series = None
model.future_covariate_series = None

执行上述操作后，在预测时必须手动提供输入序列。这种方法特别适合全局预测模型，因为它们通常需要在不同序列上进行推理。

通过设置multi_models=False可以显著减少模型体积：

model = SomeModelClass(multi_models=False, ...)

在这种模式下：

合理调整模型参数也能有效控制模型大小：

对于生产部署场景，建议采用以下最佳实践：

Darts项目提供了灵活的模型保存机制，用户可以根据实际需求在便利性和资源消耗之间做出选择。通过理解模型存储机制并合理配置参数，可以显著优化模型文件大小，使其更适合生产环境部署。未来版本可能会提供更便捷的模型精简方法，进一步简化这一优化过程。

登录后查看全文