数据预处理完全教程：机器学习100天Day1代码实现详解

2026-02-06 04:59:53作者：温玫谨Lighthearted

数据预处理是机器学习项目中至关重要的一环，它直接影响模型的性能和准确性。📊 在机器学习100天挑战的第一天，你将学习如何通过6个核心步骤完成数据预处理，为后续的建模工作打下坚实基础。

为什么数据预处理如此重要？

数据预处理是机器学习流程中的关键步骤，它能够：

处理缺失值和异常数据
将分类数据转换为数值形式
标准化特征值范围
提高模型训练效率和准确性

数据预处理流程图

数据预处理6大步骤详解

1️⃣ 导入必要的库

首先需要导入NumPy和Pandas这两个核心库：

import numpy as np
import pandas as pd

NumPy提供高效的数值计算功能，Pandas则擅长数据处理和分析。

2️⃣ 导入数据集

使用Pandas读取CSV文件并分离特征和标签：

dataset = pd.read_csv('../datasets/Data.csv')
X = dataset.iloc[:, :-1].values  # 所有特征列
Y = dataset.iloc[:, 3].values    # 标签列

数据集示例（Data.csv）：

包含国家、年龄、薪资和购买决策等字段
存在缺失值需要处理

3️⃣ 处理缺失数据

使用Scikit-learn的SimpleImputer处理缺失值：

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy="mean")
imputer = imputer.fit(X[:, 1:3])
X[:, 1:3] = imputer.transform(X[:, 1:3])

这种方法用列的平均值填充缺失的数值数据。

4️⃣ 编码分类数据

将文本分类数据转换为数值形式：

from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer

ct = ColumnTransformer([("", OneHotEncoder(), [0])], remainder='passthrough')
X = ct.fit_transform(X)
labelencoder_Y = LabelEncoder()
Y = labelencoder_Y.fit_transform(Y)

One-Hot编码避免给分类数据赋予错误的数值顺序。

5️⃣ 拆分训练集和测试集

将数据分为训练集和测试集：

from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=0)

通常使用80%的数据训练，20%的数据测试。

6️⃣ 特征量化

标准化特征值到相同尺度：

from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)

特征量化确保所有特征对模型的影响权重相同。

实践建议和最佳实践

💡 实用技巧：

总是检查数据的基本统计信息
处理缺失值前分析缺失模式
对于分类变量，优先使用One-Hot编码
特征量化对基于距离的算法特别重要

🎯 项目文件路径：

主代码文件：Code/Day 1_Data_Preprocessing.py
详细说明文档：Code/Day 1_Data_Preprocessing.md
示例数据集：datasets/Data.csv

通过这6个步骤的数据预处理，你的数据将变得干净、规整，为机器学习模型的训练做好充分准备。记住，好的数据预处理是成功机器学习项目的一半！🚀

开始你的机器学习100天之旅，从数据预处理开始，一步步掌握机器学习的核心技能。

100-Days-Of-ML-Code

项目地址：https://gitcode.com/gh_mirrors/100/100-Days-Of-ML-Code

登录后查看全文

项目优选

收起

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

359

219

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

C++

161

数据预处理完全教程：机器学习100天Day1代码实现详解

为什么数据预处理如此重要？

数据预处理6大步骤详解

1️⃣ 导入必要的库

2️⃣ 导入数据集

3️⃣ 处理缺失数据

4️⃣ 编码分类数据

5️⃣ 拆分训练集和测试集

6️⃣ 特征量化

实践建议和最佳实践

热门内容推荐

最新内容推荐

项目优选

数据预处理完全教程：机器学习100天Day1代码实现详解

为什么数据预处理如此重要？

数据预处理6大步骤详解

1️⃣ 导入必要的库

2️⃣ 导入数据集

3️⃣ 处理缺失数据

4️⃣ 编码分类数据

5️⃣ 拆分训练集和测试集

6️⃣ 特征量化

实践建议和最佳实践

相关内容推荐

热门内容推荐

最新内容推荐

项目优选