3分钟搞定时序数据标准化：从混乱到精准的预处理实战指南

2026-02-04 05:13:39作者：贡沫苏Truman

你是否曾因传感器数据量纲混乱导致模型预测偏差？是否困惑于为何同样的算法在不同数据集上表现天差地别？时序数据标准化（Normalization）是解决这些问题的关键步骤，却常被忽视其细节差异。本文将以Time-Series-Library为实战工具，通过3个核心方法、4个应用场景和20行代码示例，帮你彻底掌握时序数据预处理的精髓。读完本文你将获得：标准化算法选型指南、异常值处理技巧、模型训练全流程适配方案，以及5个行业数据集的最佳实践配置。

为什么时序标准化如此重要？

在工业传感器数据中，温度可能以摄氏度为单位（范围-20~80），而压力传感器可能使用千帕（范围0~1000）。这种量纲差异会导致模型训练时过度关注数值大的特征，而忽略真正重要的趋势变化。Time-Series-Library通过统一的标准化接口，确保不同特征在进入模型前具有相同的尺度，这对基于梯度下降的深度学习模型尤为关键。

标准化与归一化的核心差异

方法	公式	适用场景	优势	实现类
Z-Score标准化	(x-μ)/σ	正态分布数据	保留异常值信息	StandardScaler
Min-Max归一化	(x-min)/(max-min)	有界数据	输出范围固定[0,1]	数据加载器
对数转换	log(x+1)	偏态分布数据	压缩大值范围	需自定义实现

注意：Time-Series-Library默认采用Z-Score标准化，在utils/tools.py中实现了StandardScaler类，支持训练数据拟合与逆转换操作。

核心实现：Time-Series-Library的标准化模块

StandardScaler类深度解析

Time-Series-Library在utils/tools.py中实现了轻量级标准化工具，核心代码仅10行却包含完整功能：

class StandardScaler():
    def __init__(self, mean, std):
        self.mean = mean  # 训练数据均值
        self.std = std    # 训练数据标准差

    def transform(self, data):
        return (data - self.mean) / self.std  # 标准化转换

    def inverse_transform(self, data):
        return (data * self.std) + self.mean  # 逆转换恢复原始尺度

这个实现有两个关键设计：

分离拟合与转换：在数据加载阶段计算训练集的均值和标准差（见Dataset_ETT_hour类）
支持逆转换：预测完成后可将标准化数据恢复为原始尺度，方便结果解释

数据加载器中的标准化流程

以Dataset_ETT_hour为例，标准化在__read_data__方法中完成：

def __read_data__(self):
    self.scaler = StandardScaler()  # 初始化标准化器
    df_raw = pd.read_csv(os.path.join(self.root_path, self.data_path))
    
    # 数据分割（训练/验证/测试）
    border1s = [0, 12*30*24 - self.seq_len, 12*30*24 + 4*30*24 - self.seq_len]
    border2s = [12*30*24, 12*30*24 + 4*30*24, 12*30*24 + 8*30*24]
    
    if self.scale:
        train_data = df_data[border1s[0]:border2s[0]]  # 仅用训练集拟合
        self.scaler.fit(train_data.values)
        data = self.scaler.transform(df_data.values)  # 对所有数据转换

最佳实践：永远只用训练集的统计量（均值/标准差）进行标准化，避免测试集信息泄露。Time-Series-Library的所有数据加载器都严格遵循这一原则。

实战指南：4大场景标准化方案

1. 电力负荷预测（ETT数据集）

ETT(Electricity Transformer Temperature)数据集包含电力变压器温度和负荷数据，适合使用默认标准化配置：

# 运行ETT小时级数据集预测
bash scripts/long_term_forecast/ETT_script/Autoformer_ETTh1.sh

该脚本会自动调用Dataset_ETT_hour类，对温度特征进行标准化。数据分布可视化如下：

2. 异常检测（SMAP数据集）

SMAP(Sensor Measurement for Atmospheric and Oceanographic Processes)数据集包含传感器异常数据，标准化时需注意异常值影响：

# SMAP数据加载器特殊处理
class SMAPSegLoader(Dataset):
    def __init__(self, args, root_path, win_size, step=1, flag="train"):
        self.scaler = StandardScaler()
        data = np.load(os.path.join(root_path, "SMAP_train.npy"))
        self.scaler.fit(data)  # 训练集拟合（不含异常值）
        self.test = self.scaler.transform(test_data)  # 测试集转换

在异常检测场景中，建议先移除训练集中的已知异常值再进行标准化拟合，实现代码见SMAPSegLoader。

3. 分类任务（UEA数据集）

UEA(Univariate Time Series Classification)数据集用于时序分类任务，需要对每个特征单独标准化：

# 多变量标准化处理
from sklearn.preprocessing import StandardScaler

scalers = {}
for feature in features:
    scalers[feature] = StandardScaler()
    train_data[feature] = scalers[feature].fit_transform(train_data[feature].values.reshape(-1, 1))

Time-Series-Library在UEAloader中实现了多变量标准化支持，适合处理包含多个传感器的工业数据。

4. 缺失值填充（ECL数据集）

ECL(Electricity Consumption Load)数据集存在缺失值，需先填充再标准化：

# 缺失值处理与标准化结合
data = pd.read_csv(os.path.join(root_path, 'ECL.csv'))
data = data.fillna(method='ffill')  # 前向填充缺失值
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data.values)

相关实现可参考imputation脚本，该脚本展示了预处理完整流程：缺失值填充→标准化→模型训练→结果逆转换。

高级技巧：标准化常见问题解决方案

异常值鲁棒性处理

当数据中存在极端异常值时，可使用中位数和四分位距替代均值和标准差：

# 鲁棒标准化实现
class RobustScaler():
    def __init__(self, median, iqr):
        self.median = median  # 中位数
        self.iqr = iqr        # 四分位距（Q3-Q1）

    def transform(self, data):
        return (data - self.median) / self.iqr

这种方法对传感器突发故障导致的异常值更稳健，适合工业环境监测场景。

时间窗口标准化

对于非平稳时序数据，可采用滑动窗口标准化：

# 窗口标准化示例
def window_standardize(data, window_size=24):
    result = np.zeros_like(data)
    for i in range(len(data)):
        start = max(0, i-window_size)
        window = data[start:i+1]
        result[i] = (data[i] - window.mean()) / (window.std() + 1e-8)
    return result

在交通流量预测等具有日周期特征的数据中，窗口标准化能有效突出局部模式，相关应用可参考Traffic_script中的配置。

总结与最佳实践

时序数据标准化是模型成功的基础步骤，Time-Series-Library通过统一接口实现了多种标准化方法，关键要点总结如下：

算法选型：正态分布数据用Z-Score（默认），有界数据用Min-Max，偏态数据用对数转换
实现位置：在数据加载阶段完成，参见Dataset_ETT_hour和StandardScaler
关键原则：只用训练集拟合，保留逆转换能力，异常值预处理
场景适配：预测任务用全局标准化，异常检测用稳健标准化，非平稳数据用窗口标准化

扩展学习：更多预处理技巧可参考官方教程tutorial/TimesNet_tutorial.ipynb，包含傅里叶变换、小波分解等高级特征工程方法。

通过本文介绍的标准化方法，你可以解决90%以上的时序数据预处理问题。记住：良好的预处理是模型性能的上限，一个经过精心标准化的简单模型，往往比未经处理的复杂模型表现更好。立即克隆仓库开始实践吧！

git clone https://gitcode.com/GitHub_Trending/ti/Time-Series-Library

期待你在实际应用中发现标准化的威力，如有问题欢迎在项目CONTRIBUTING.md中提出交流。下一篇我们将探讨时序数据增强技术，敬请关注！

Time-Series-Library

A Library for Advanced Deep Time Series Models.

项目地址：https://gitcode.com/GitHub_Trending/ti/Time-Series-Library

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

3分钟搞定时序数据标准化：从混乱到精准的预处理实战指南

为什么时序标准化如此重要？

标准化与归一化的核心差异

核心实现：Time-Series-Library的标准化模块

StandardScaler类深度解析

数据加载器中的标准化流程

实战指南：4大场景标准化方案

1. 电力负荷预测（ETT数据集）

2. 异常检测（SMAP数据集）

3. 分类任务（UEA数据集）

4. 缺失值填充（ECL数据集）

高级技巧：标准化常见问题解决方案

异常值鲁棒性处理

时间窗口标准化

总结与最佳实践

热门内容推荐

最新内容推荐

项目优选

3分钟搞定时序数据标准化：从混乱到精准的预处理实战指南

为什么时序标准化如此重要？

标准化与归一化的核心差异

核心实现：Time-Series-Library的标准化模块

StandardScaler类深度解析

数据加载器中的标准化流程

实战指南：4大场景标准化方案

1. 电力负荷预测（ETT数据集）

2. 异常检测（SMAP数据集）

3. 分类任务（UEA数据集）

4. 缺失值填充（ECL数据集）

高级技巧：标准化常见问题解决方案

异常值鲁棒性处理

时间窗口标准化

总结与最佳实践

相关内容推荐

热门内容推荐

最新内容推荐

项目优选