机器学习入门项目：使用分类器预测菜系类型

2026-02-03 05:50:54作者：庞队千Virginia

引言

在机器学习领域，分类问题是监督学习中最常见的任务之一。本文将通过一个实际案例——基于食材预测菜系类型，来介绍分类算法的应用。我们将使用经过清洗和平衡处理的数据集，探索不同分类器的表现，并重点讲解逻辑回归在多元分类问题中的应用。

数据准备

在开始建模之前，我们已经完成了数据清洗工作，现在拥有一个名为cleaned_cuisines.csv的干净数据集。这个数据集包含多个国家的菜系及其对应的食材特征。

import pandas as pd
cuisines_df = pd.read_csv("../data/cleaned_cuisines.csv")

数据集结构如下：

每行代表一个菜品
cuisine列表示菜系类型（如indian、chinese等）
其他列是各种食材的二元特征（0表示不使用，1表示使用）

特征与标签分离

在机器学习中，我们需要明确区分特征（输入）和标签（输出）：

cuisines_label_df = cuisines_df['cuisine']  # 标签
cuisines_feature_df = cuisines_df.drop(['Unnamed: 0', 'cuisine'], axis=1)  # 特征

分类算法选择

面对多种分类算法，初学者常会感到困惑。以下是选择分类器时需要考虑的因素：

问题类型：我们处理的是多元分类问题（多个菜系类别）
数据规模：数据集相对较小，不适合复杂模型
计算资源：在本地运行，需要考虑算法效率

根据微软的机器学习算法选择指南，对于多元分类问题，可选的算法包括：

逻辑回归
决策树
随机森林
支持向量机等

逻辑回归实现

虽然逻辑回归最初是为二分类设计的，但通过特定策略可以扩展到多元分类：

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(
    cuisines_feature_df, 
    cuisines_label_df, 
    test_size=0.3
)

# 创建并训练模型
lr = LogisticRegression(multi_class='ovr', solver='liblinear')
model = lr.fit(X_train, y_train.values.ravel())

关键参数说明：

multi_class='ovr'：使用"一对多"策略处理多元分类
solver='liblinear'：选择适合小数据集的优化算法

模型评估

训练完成后，我们需要评估模型性能：

accuracy = model.score(X_test, y_test)
print(f"模型准确率: {accuracy:.2%}")

典型输出结果可能在80%左右，对于初步模型来说表现不错。

详细评估

我们可以查看分类报告获取更详细的评估指标：

from sklearn.metrics import classification_report

y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

报告将显示每个类别的精确度、召回率和F1分数，帮助我们了解模型在不同菜系上的表现差异。

模型应用示例

让我们看看模型如何预测一个新样本：

sample = X_test.iloc[50]  # 取测试集中的第50个样本
print(f"使用食材: {sample[sample!=0].index.tolist()}")
print(f"实际菜系: {y_test.iloc[50]}")

# 预测概率
proba = model.predict_proba([sample])
result_df = pd.DataFrame(proba, columns=model.classes_)
print(result_df.T.sort_values(by=0, ascending=False).head())

输出可能显示模型以71.5%的概率预测为印度菜，这与实际标签一致。

算法选择深入探讨

Scikit-learn提供了多种分类算法，每种都有其特点和适用场景：

线性模型（如逻辑回归）：
- 简单高效
- 适合线性可分问题
- 可解释性强
支持向量机(SVM)：
- 适合高维空间
- 可通过核函数处理非线性问题
- 但对大规模数据效率较低
决策树：
- 直观易懂
- 自动特征选择
- 可能过拟合
集成方法（如随机森林）：
- 通常表现优异
- 减少过拟合风险
- 计算成本较高

总结与建议

通过本案例，我们学习了：

如何使用逻辑回归解决多元分类问题
模型评估的基本方法
不同分类算法的选择考量

对于初学者，建议：

从简单模型（如逻辑回归）开始
理解模型参数的意义
逐步尝试更复杂的算法
始终关注模型的可解释性

扩展思考

为什么逻辑回归在"一对多"策略下能处理多元分类？
不同优化算法（solver）对模型性能有何影响？
如何通过特征工程进一步提高模型准确率？
当类别不平衡时，应该采取什么策略？

通过这些问题，可以更深入地理解分类算法的原理和应用。

ML-For-Beginners

微软出品的面向初学者的机器学习课程，提供了一系列实践项目和教程，旨在帮助新手逐步掌握Python、Azure ML等工具进行数据预处理、模型训练及部署。

项目地址：https://gitcode.com/GitHub_Trending/ml/ML-For-Beginners

登录后查看全文