Pandas基础数据处理技巧详解：以纽约餐厅卫生检查数据为例

2025-06-04 19:01:13作者：戚魁泉Nursing

前言

在数据分析领域，Pandas是Python中最强大的数据处理库之一。本文将以ipeirotis/dealing_with_data项目中的纽约餐厅卫生检查数据为例，详细介绍Pandas的基础数据操作技巧，帮助读者快速掌握数据处理的核心方法。

环境准备

在开始数据分析前，我们需要搭建合适的工作环境：

# 安装必要的Python库
!pip3 install -U -q PyMySQL sqlalchemy

# 导入常用数据分析库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 设置图表显示样式
%config InlineBackend.figure_format = 'retina'
matplotlib.style.use(["seaborn-v0_8-talk", "seaborn-v0_8-ticks", "seaborn-v0_8-whitegrid"])

数据获取

我们将从MySQL数据库中获取纽约市餐厅卫生检查数据，这些数据已经过清洗和规范化处理：

# 创建数据库连接
from sqlalchemy import create_engine
from sqlalchemy import text

conn_string = 'mysql+pymysql://{user}:{password}@{host}/{db}?charset=utf8mb4'.format(
    host = 'db.ipeirotis.org',
    user = 'student',
    password = 'dwdstudent2015',
    db = 'doh_restaurants',
    encoding = 'utf8mb4')

engine = create_engine(conn_string)

数据加载

我们通过SQL查询获取三组关键数据：

餐厅基本信息：

sql = '''
    SELECT R.CAMIS, R.DBA, R.BUILDING, R.STREET, R.ZIPCODE, R.BORO,
          R.CUISINE_DESCRIPTION, R.LATITUDE, R.LONGITUDE, R.NTA
    FROM doh_restaurants.restaurants R
'''

with engine.connect() as connection:
    restaurants = pd.read_sql(text(sql), con=connection)

检查记录：

sql = '''
    SELECT R.CAMIS, R.DBA, R.ZIPCODE, R.BORO, R.CUISINE_DESCRIPTION, R.NTA,
            I.INSPECTION_DATE, I.INSPECTION_ID,
            I.INSPECTION_TYPE, I.SCORE, I.GRADE
    FROM restaurants R
        JOIN inspections I ON I.CAMIS = R.CAMIS
'''

with engine.connect() as connection:
    inspections = pd.read_sql(text(sql), con=connection)

违规记录：

sql = '''
  WITH latest_inspection AS (
        SELECT CAMIS, MAX(INSPECTION_DATE) AS INSPECTION_DATE FROM inspections
        GROUP BY CAMIS
    )
    SELECT R.CAMIS, R.DBA, R.ZIPCODE, R.BORO,
          I.INSPECTION_DATE, I.INSPECTION_ID, I.INSPECTION_TYPE,
          V.VIOLATION_CODE, I.SCORE, I.GRADE
        FROM restaurants R
            JOIN latest_inspection L ON R.CAMIS = L.CAMIS
            JOIN inspections I ON I.CAMIS = L.CAMIS AND L.INSPECTION_DATE = I.INSPECTION_DATE
            JOIN violations V ON I.INSPECTION_ID = V.INSPECTION_ID
'''

with engine.connect() as connection:
    violations = pd.read_sql(text(sql), con=connection)

核心数据处理技巧

1. 列选择（filter方法）

在数据分析中，我们经常只需要关注部分列的数据：

# 选择特定列
inspections.filter(items=["DBA", "GRADE", "INSPECTION_DATE"])

# 使用链式操作选择多列并显示前10行
columns = ["CAMIS", "DBA", "GRADE", "INSPECTION_DATE", "SCORE"]
(
  inspections
  .filter(items=columns)
  .head(10)
)

高级列选择技巧：

# 选择包含特定字符串的列
inspections.filter(like='DATE')

# 使用正则表达式选择列
restaurants.filter(regex=r'^C')  # 选择所有以C开头的列

2. 列重命名（rename方法）

restaurants.rename(
    columns={
      "CAMIS": "RESTID",
      "DBA": "REST_NAME",
      "BUILDING": "STREET_NUM",
      "BORO": "BOROUGH"
    }
)

3. 行选择（query方法）

# 查询特定餐厅
restaurants.query('DBA == "STARBUCKS"')

# 查询特定违规代码
violations.query('VIOLATION_CODE == "04L"')

# 复杂条件查询
has_mice_10012 = (
    violations
    .query('VIOLATION_CODE == "04L" and ZIPCODE == "10012"')
    .filter(items=['DBA', 'INSPECTION_DATE'])
)

4. 数据去重（drop_duplicates方法）

(
    restaurants
    .query('CUISINE_DESCRIPTION == "Coffee/Tea" and ZIPCODE == "10012"')
    .filter(items=['DBA'])
    .drop_duplicates()
)

实战分析案例

案例1：分析有老鼠问题的餐厅

# 获取所有有老鼠问题的餐厅
has_mice = violations.query('VIOLATION_CODE == "04L"')

# 统计最常见的有老鼠问题的餐厅
mice = has_mice["DBA"].value_counts()

# 获取最常见的25家餐厅
top_restaurants = restaurants["DBA"].value_counts().head(25)

# 计算常见餐厅中有老鼠问题的比例
(mice / top_restaurants).dropna()

案例2：分析NYU附近卫生条件差的餐厅

# 获取违规代码描述
with engine.connect() as connection:
  sql = "SELECT * FROM doh_restaurants.violation_codes"
  codes = pd.read_sql(text(sql), con=connection)

# 查询NYU附近卫生条件差的餐厅
filthy_near_NYU = (
    violations
    .query('VIOLATION_CODE in ["04K", "04L", "04M", "04N", "04O"]')
    .query('ZIPCODE in ["10012", "10003", "10014"]')
    .query('INSPECTION_DATE > "2023-01-01"')
    .filter(items=['DBA', 'INSPECTION_DATE'])
    .sort_values("INSPECTION_DATE", ascending=False)
    .drop_duplicates()
)