微软Qlib项目中DDG-DA算法NaN值处理问题解析

2025-05-11 11:30:03作者：邬祺芯Juliet

Qlib is an AI-oriented Quant investment platform that aims to use AI tech to empower Quant Research, from exploring ideas to implementing productions. Qlib supports diverse ML modeling paradigms, including supervised learning, market dynamics modeling, and RL, and is now equipped with https://github.com/microsoft/RD-Agent to automate R&D process.

项目地址：https://gitcode.com/GitHub_Trending/qli/qlib

问题背景

在微软开源的Qlib量化投资研究框架中，DDG-DA(Dynamic Data Generation with Data Augmentation)算法是一个重要的动态数据生成与增强模块。该模块在近期版本中出现了NaN值处理不当的问题，导致算法无法正常运行。

问题现象

当用户尝试运行DDG-DA示例代码时，系统会抛出NaN值相关的错误。这一问题在不同环境中均能复现，包括：

本地高性能服务器环境(配备NVIDIA RTX 4090 GPU和AMD EPYC 7763 CPU)
Google Colab云环境(使用T4 GPU)

问题根源分析

经过技术分析，问题根源在于数据预处理阶段未能正确处理无限大值(np.inf和-np.inf)。在机器学习领域，无限大值与NaN值一样，都会对模型训练造成干扰。原始代码中直接使用dropna()方法删除包含NaN值的行，但未先处理无限大值，导致这些异常值影响了后续计算。

解决方案

在qlib/contrib/meta/data_selection/dataset.py文件中，需要在执行dropna()操作前，先使用replace()方法将无限大值替换为NaN值。具体修改如下：

# 新增代码：将无限大值替换为NaN
d_train = d_train.replace([np.inf, -np.inf], np.nan) 
d_test = d_test.replace([np.inf, -np.inf], np.nan)  

# 原有代码：删除包含NaN的行
d_train = d_train.dropna(axis=0)
d_test = d_test.dropna(axis=0)

技术原理

数据清洗的重要性：在量化金融领域，原始数据常包含各种异常值，正确处理这些异常值是保证模型效果的关键步骤。
无限大值的来源：在金融数据处理过程中，无限大值可能来源于：
- 除零操作
- 数据标准化过程中的数值溢出
- 数据源本身的异常记录
处理顺序的影响：先替换无限大值为NaN，再统一删除NaN行，这种分阶段处理方式比单一操作更稳健，能确保所有异常值都被妥善处理。

实施建议

对于使用Qlib框架的研究人员，建议在本地安装时从源代码构建，以确保修改生效：

git clone https://github.com/microsoft/qlib.git
cd qlib
pip install .

修改后应重新运行完整的测试流程，验证DDG-DA算法的各项功能是否正常。
对于生产环境，建议将此类数据预处理步骤封装为可配置的管道，提高代码的复用性和可维护性。

总结

数据质量是量化研究的基础，正确处理异常值是保证算法稳定性的关键。微软Qlib框架中的这一问题提醒我们，在金融数据处理流程中，需要建立完善的异常值检测和处理机制。通过本文提供的解决方案，研究人员可以快速恢复DDG-DA算法的正常运行，同时也能加深对金融数据预处理重要性的理解。

qlib

项目地址：https://gitcode.com/GitHub_Trending/qli/qlib

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

1.1 K

611

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

微软Qlib项目中DDG-DA算法NaN值处理问题解析

问题背景

问题现象

问题根源分析

解决方案

技术原理

实施建议

总结

相关内容推荐

最新内容推荐

项目优选