首页
/ Pandas基础数据处理技巧详解:以纽约餐厅卫生检查数据为例

Pandas基础数据处理技巧详解:以纽约餐厅卫生检查数据为例

2025-06-04 08:54:21作者:戚魁泉Nursing

前言

在数据分析领域,Pandas是Python中最强大的数据处理库之一。本文将以ipeirotis/dealing_with_data项目中的纽约餐厅卫生检查数据为例,详细介绍Pandas的基础数据操作技巧,帮助读者快速掌握数据处理的核心方法。

环境准备

在开始数据分析前,我们需要搭建合适的工作环境:

# 安装必要的Python库
!pip3 install -U -q PyMySQL sqlalchemy

# 导入常用数据分析库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 设置图表显示样式
%config InlineBackend.figure_format = 'retina'
matplotlib.style.use(["seaborn-v0_8-talk", "seaborn-v0_8-ticks", "seaborn-v0_8-whitegrid"])

数据获取

我们将从MySQL数据库中获取纽约市餐厅卫生检查数据,这些数据已经过清洗和规范化处理:

# 创建数据库连接
from sqlalchemy import create_engine
from sqlalchemy import text

conn_string = 'mysql+pymysql://{user}:{password}@{host}/{db}?charset=utf8mb4'.format(
    host = 'db.ipeirotis.org',
    user = 'student',
    password = 'dwdstudent2015',
    db = 'doh_restaurants',
    encoding = 'utf8mb4')

engine = create_engine(conn_string)

数据加载

我们通过SQL查询获取三组关键数据:

  1. 餐厅基本信息
sql = '''
    SELECT R.CAMIS, R.DBA, R.BUILDING, R.STREET, R.ZIPCODE, R.BORO,
          R.CUISINE_DESCRIPTION, R.LATITUDE, R.LONGITUDE, R.NTA
    FROM doh_restaurants.restaurants R
'''

with engine.connect() as connection:
    restaurants = pd.read_sql(text(sql), con=connection)
  1. 检查记录
sql = '''
    SELECT R.CAMIS, R.DBA, R.ZIPCODE, R.BORO, R.CUISINE_DESCRIPTION, R.NTA,
            I.INSPECTION_DATE, I.INSPECTION_ID,
            I.INSPECTION_TYPE, I.SCORE, I.GRADE
    FROM restaurants R
        JOIN inspections I ON I.CAMIS = R.CAMIS
'''

with engine.connect() as connection:
    inspections = pd.read_sql(text(sql), con=connection)
  1. 违规记录
sql = '''
  WITH latest_inspection AS (
        SELECT CAMIS, MAX(INSPECTION_DATE) AS INSPECTION_DATE FROM inspections
        GROUP BY CAMIS
    )
    SELECT R.CAMIS, R.DBA, R.ZIPCODE, R.BORO,
          I.INSPECTION_DATE, I.INSPECTION_ID, I.INSPECTION_TYPE,
          V.VIOLATION_CODE, I.SCORE, I.GRADE
        FROM restaurants R
            JOIN latest_inspection L ON R.CAMIS = L.CAMIS
            JOIN inspections I ON I.CAMIS = L.CAMIS AND L.INSPECTION_DATE = I.INSPECTION_DATE
            JOIN violations V ON I.INSPECTION_ID = V.INSPECTION_ID
'''

with engine.connect() as connection:
    violations = pd.read_sql(text(sql), con=connection)

核心数据处理技巧

1. 列选择(filter方法)

在数据分析中,我们经常只需要关注部分列的数据:

# 选择特定列
inspections.filter(items=["DBA", "GRADE", "INSPECTION_DATE"])

# 使用链式操作选择多列并显示前10行
columns = ["CAMIS", "DBA", "GRADE", "INSPECTION_DATE", "SCORE"]
(
  inspections
  .filter(items=columns)
  .head(10)
)

高级列选择技巧:

# 选择包含特定字符串的列
inspections.filter(like='DATE')

# 使用正则表达式选择列
restaurants.filter(regex=r'^C')  # 选择所有以C开头的列

2. 列重命名(rename方法)

restaurants.rename(
    columns={
      "CAMIS": "RESTID",
      "DBA": "REST_NAME",
      "BUILDING": "STREET_NUM",
      "BORO": "BOROUGH"
    }
)

3. 行选择(query方法)

# 查询特定餐厅
restaurants.query('DBA == "STARBUCKS"')

# 查询特定违规代码
violations.query('VIOLATION_CODE == "04L"')

# 复杂条件查询
has_mice_10012 = (
    violations
    .query('VIOLATION_CODE == "04L" and ZIPCODE == "10012"')
    .filter(items=['DBA', 'INSPECTION_DATE'])
)

4. 数据去重(drop_duplicates方法)

(
    restaurants
    .query('CUISINE_DESCRIPTION == "Coffee/Tea" and ZIPCODE == "10012"')
    .filter(items=['DBA'])
    .drop_duplicates()
)

实战分析案例

案例1:分析有老鼠问题的餐厅

# 获取所有有老鼠问题的餐厅
has_mice = violations.query('VIOLATION_CODE == "04L"')

# 统计最常见的有老鼠问题的餐厅
mice = has_mice["DBA"].value_counts()

# 获取最常见的25家餐厅
top_restaurants = restaurants["DBA"].value_counts().head(25)

# 计算常见餐厅中有老鼠问题的比例
(mice / top_restaurants).dropna()

案例2:分析NYU附近卫生条件差的餐厅

# 获取违规代码描述
with engine.connect() as connection:
  sql = "SELECT * FROM doh_restaurants.violation_codes"
  codes = pd.read_sql(text(sql), con=connection)

# 查询NYU附近卫生条件差的餐厅
filthy_near_NYU = (
    violations
    .query('VIOLATION_CODE in ["04K", "04L", "04M", "04N", "04O"]')
    .query('ZIPCODE in ["10012", "10003", "10014"]')
    .query('INSPECTION_DATE > "2023-01-01"')
    .filter(items=['DBA', 'INSPECTION_DATE'])
    .sort_values("INSPECTION_DATE", ascending=False)
    .drop_duplicates()
)

总结

通过本文的学习,我们掌握了Pandas数据处理的核心技巧:

  1. 使用filter方法灵活选择需要的列
  2. 使用rename方法重命名列
  3. 使用query方法进行条件筛选
  4. 使用drop_duplicates方法去除重复数据

这些基础技巧是数据分析的基石,掌握它们将为后续更复杂的数据分析工作打下坚实基础。在实际应用中,我们可以将这些技巧组合使用,解决各种数据分析问题。

登录后查看全文

项目优选

收起
leetcodeleetcode
🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解
Java
51
15
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
118
207
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
527
404
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
63
145
cherry-studiocherry-studio
🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
391
37
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
98
251
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
297
1.02 K
arkanalyzerarkanalyzer
方舟分析器:面向ArkTS语言的静态程序分析框架
TypeScript
42
40
HarmonyOS-ExamplesHarmonyOS-Examples
本仓将收集和展示仓颉鸿蒙应用示例代码,欢迎大家投稿,在仓颉鸿蒙社区展现你的妙趣设计!
Cangjie
357
341
CangjieMagicCangjieMagic
基于仓颉编程语言构建的 LLM Agent 开发框架,其主要特点包括:Agent DSL、支持 MCP 协议,支持模块化调用,支持任务智能规划。
Cangjie
583
41