IBM Japan Technology项目：使用Watson Studio中的Jupyter Notebook构建客户流失预测模型

2025-06-02 22:19:25作者：羿妍玫Ivan

概述

本教程将详细介绍如何在IBM Watson Studio环境中使用Jupyter Notebook构建机器学习模型。我们将以Kaggle提供的客户流失数据集为例，展示从数据导入到模型部署的完整机器学习工作流程。该项目属于IBM Japan Technology系列技术实践的一部分，特别适合希望掌握Watson Studio平台数据科学能力的技术人员。

技术背景

Watson Studio是IBM提供的集成化数据科学平台，其核心优势在于：

提供完整的云端Jupyter Notebook环境
内置与IBM Cloud Object Storage的无缝集成
支持从模型开发到部署的全生命周期管理
提供多种建模方式选择（可视化工具与编程接口）

准备工作

环境配置要求

在开始本教程前，您需要确保具备以下环境：

有效的IBM Cloud账户
已开通Watson Studio服务
已配置IBM Cloud Object Storage
已创建Watson Machine Learning服务实例

数据集说明

我们将使用电信行业客户流失数据集，包含以下典型特征：

客户基本信息（服务时长、合同类型等）
服务使用情况（国际通话、流量使用等）
账单详情（月费用、付款方式等）
标签字段（是否流失）

核心操作步骤

1. 创建部署空间

部署空间是模型管理的关键单元，创建步骤包括：

在Watson Studio导航栏选择"Deployments"
点击"New Deployment Space+"创建新空间
确保关联正确的存储和机器学习服务
记录生成的Space GUID（后续步骤需要）

2. 配置API访问凭证

通过IBM Cloud控制台创建API密钥
记录密钥值和对应区域信息（如us-south等）
确定Watson Machine Learning服务实例位置

3. Notebook创建与配置

在项目中点击"Add to Project"选择Notebook
选择"From URL"方式导入
指定Python 3.7运行时环境
输入Notebook URL完成创建

关键技巧：首次运行时需要将数据文件插入到pandas DataFrame，变量名需统一为"df"以保证后续代码正常运行。

机器学习工作流程详解

数据探索阶段

使用pandas和可视化工具进行初步分析：

# 显示基础统计信息
df.describe()

# 绘制特征分布图
import matplotlib.pyplot as plt
df['Churn'].value_counts().plot(kind='bar')

数据预处理

典型预处理操作包括：

分类变量编码（LabelEncoder/OneHotEncoder）
数值特征标准化
无关特征删除（如客户标识）
处理缺失值

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
numerical_features = ['tenure', 'MonthlyCharges']
df[numerical_features] = scaler.fit_transform(df[numerical_features])

模型训练与评估

采用分层交叉验证确保数据分布一致性：

from sklearn.model_selection import StratifiedKFold
from sklearn.ensemble import GradientBoostingClassifier

skf = StratifiedKFold(n_splits=5)
model = GradientBoostingClassifier()
for train_idx, test_idx in skf.split(X, y):
    X_train, X_test = X[train_idx], X[test_idx]
    y_train, y_test = y[train_idx], y[test_idx]
    model.fit(X_train, y_train)

评估指标重点关注：

准确率(Accuracy)
精确率(Precision)
召回率(Recall)
F1 Score
AUC-ROC曲线

模型部署实践

保存模型到WML

from ibm_watson_machine_learning import APIClient

wml_credentials = {
    "apikey": "your_api_key",
    "url": "https://us-south.ml.cloud.ibm.com"
}
client = APIClient(wml_credentials)
model_details = client.repository.store_model(model=model, meta_props={
    client.repository.ModelMetaNames.NAME: "Churn_Prediction_Model"
})

测试部署的模型

通过REST API测试部署的模型：

scoring_payload = {
    "input_data": [{
        "fields": ["feature1", "feature2", ...],
        "values": [[value1, value2, ...]]
    }]
}
predictions = client.deployments.score(scoring_endpoint, scoring_payload)