Pandas基础数据处理技巧详解:以纽约餐厅卫生检查数据为例
2025-06-04 22:04:29作者:戚魁泉Nursing
前言
在数据分析领域,Pandas是Python中最强大的数据处理库之一。本文将以ipeirotis/dealing_with_data项目中的纽约餐厅卫生检查数据为例,详细介绍Pandas的基础数据操作技巧,帮助读者快速掌握数据处理的核心方法。
环境准备
在开始数据分析前,我们需要搭建合适的工作环境:
# 安装必要的Python库
!pip3 install -U -q PyMySQL sqlalchemy
# 导入常用数据分析库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
# 设置图表显示样式
%config InlineBackend.figure_format = 'retina'
matplotlib.style.use(["seaborn-v0_8-talk", "seaborn-v0_8-ticks", "seaborn-v0_8-whitegrid"])
数据获取
我们将从MySQL数据库中获取纽约市餐厅卫生检查数据,这些数据已经过清洗和规范化处理:
# 创建数据库连接
from sqlalchemy import create_engine
from sqlalchemy import text
conn_string = 'mysql+pymysql://{user}:{password}@{host}/{db}?charset=utf8mb4'.format(
host = 'db.ipeirotis.org',
user = 'student',
password = 'dwdstudent2015',
db = 'doh_restaurants',
encoding = 'utf8mb4')
engine = create_engine(conn_string)
数据加载
我们通过SQL查询获取三组关键数据:
- 餐厅基本信息:
sql = '''
SELECT R.CAMIS, R.DBA, R.BUILDING, R.STREET, R.ZIPCODE, R.BORO,
R.CUISINE_DESCRIPTION, R.LATITUDE, R.LONGITUDE, R.NTA
FROM doh_restaurants.restaurants R
'''
with engine.connect() as connection:
restaurants = pd.read_sql(text(sql), con=connection)
- 检查记录:
sql = '''
SELECT R.CAMIS, R.DBA, R.ZIPCODE, R.BORO, R.CUISINE_DESCRIPTION, R.NTA,
I.INSPECTION_DATE, I.INSPECTION_ID,
I.INSPECTION_TYPE, I.SCORE, I.GRADE
FROM restaurants R
JOIN inspections I ON I.CAMIS = R.CAMIS
'''
with engine.connect() as connection:
inspections = pd.read_sql(text(sql), con=connection)
- 违规记录:
sql = '''
WITH latest_inspection AS (
SELECT CAMIS, MAX(INSPECTION_DATE) AS INSPECTION_DATE FROM inspections
GROUP BY CAMIS
)
SELECT R.CAMIS, R.DBA, R.ZIPCODE, R.BORO,
I.INSPECTION_DATE, I.INSPECTION_ID, I.INSPECTION_TYPE,
V.VIOLATION_CODE, I.SCORE, I.GRADE
FROM restaurants R
JOIN latest_inspection L ON R.CAMIS = L.CAMIS
JOIN inspections I ON I.CAMIS = L.CAMIS AND L.INSPECTION_DATE = I.INSPECTION_DATE
JOIN violations V ON I.INSPECTION_ID = V.INSPECTION_ID
'''
with engine.connect() as connection:
violations = pd.read_sql(text(sql), con=connection)
核心数据处理技巧
1. 列选择(filter方法)
在数据分析中,我们经常只需要关注部分列的数据:
# 选择特定列
inspections.filter(items=["DBA", "GRADE", "INSPECTION_DATE"])
# 使用链式操作选择多列并显示前10行
columns = ["CAMIS", "DBA", "GRADE", "INSPECTION_DATE", "SCORE"]
(
inspections
.filter(items=columns)
.head(10)
)
高级列选择技巧:
# 选择包含特定字符串的列
inspections.filter(like='DATE')
# 使用正则表达式选择列
restaurants.filter(regex=r'^C') # 选择所有以C开头的列
2. 列重命名(rename方法)
restaurants.rename(
columns={
"CAMIS": "RESTID",
"DBA": "REST_NAME",
"BUILDING": "STREET_NUM",
"BORO": "BOROUGH"
}
)
3. 行选择(query方法)
# 查询特定餐厅
restaurants.query('DBA == "STARBUCKS"')
# 查询特定违规代码
violations.query('VIOLATION_CODE == "04L"')
# 复杂条件查询
has_mice_10012 = (
violations
.query('VIOLATION_CODE == "04L" and ZIPCODE == "10012"')
.filter(items=['DBA', 'INSPECTION_DATE'])
)
4. 数据去重(drop_duplicates方法)
(
restaurants
.query('CUISINE_DESCRIPTION == "Coffee/Tea" and ZIPCODE == "10012"')
.filter(items=['DBA'])
.drop_duplicates()
)
实战分析案例
案例1:分析有老鼠问题的餐厅
# 获取所有有老鼠问题的餐厅
has_mice = violations.query('VIOLATION_CODE == "04L"')
# 统计最常见的有老鼠问题的餐厅
mice = has_mice["DBA"].value_counts()
# 获取最常见的25家餐厅
top_restaurants = restaurants["DBA"].value_counts().head(25)
# 计算常见餐厅中有老鼠问题的比例
(mice / top_restaurants).dropna()
案例2:分析NYU附近卫生条件差的餐厅
# 获取违规代码描述
with engine.connect() as connection:
sql = "SELECT * FROM doh_restaurants.violation_codes"
codes = pd.read_sql(text(sql), con=connection)
# 查询NYU附近卫生条件差的餐厅
filthy_near_NYU = (
violations
.query('VIOLATION_CODE in ["04K", "04L", "04M", "04N", "04O"]')
.query('ZIPCODE in ["10012", "10003", "10014"]')
.query('INSPECTION_DATE > "2023-01-01"')
.filter(items=['DBA', 'INSPECTION_DATE'])
.sort_values("INSPECTION_DATE", ascending=False)
.drop_duplicates()
)
总结
通过本文的学习,我们掌握了Pandas数据处理的核心技巧:
- 使用filter方法灵活选择需要的列
- 使用rename方法重命名列
- 使用query方法进行条件筛选
- 使用drop_duplicates方法去除重复数据
这些基础技巧是数据分析的基石,掌握它们将为后续更复杂的数据分析工作打下坚实基础。在实际应用中,我们可以将这些技巧组合使用,解决各种数据分析问题。
登录后查看全文
热门项目推荐
- DDeepSeek-V3.1-BaseDeepSeek-V3.1 是一款支持思考模式与非思考模式的混合模型Python00
- QQwen-Image-Edit基于200亿参数Qwen-Image构建,Qwen-Image-Edit实现精准文本渲染与图像编辑,融合语义与外观控制能力Jinja00
GitCode-文心大模型-智源研究院AI应用开发大赛
GitCode&文心大模型&智源研究院强强联合,发起的AI应用开发大赛;总奖池8W,单人最高可得价值3W奖励。快来参加吧~054CommonUtilLibrary
快速开发工具类收集,史上最全的开发工具类,欢迎Follow、Fork、StarJava04GitCode百大开源项目
GitCode百大计划旨在表彰GitCode平台上积极推动项目社区化,拥有广泛影响力的G-Star项目,入选项目不仅代表了GitCode开源生态的蓬勃发展,也反映了当下开源行业的发展趋势。07GOT-OCR-2.0-hf
阶跃星辰StepFun推出的GOT-OCR-2.0-hf是一款强大的多语言OCR开源模型,支持从普通文档到复杂场景的文字识别。它能精准处理表格、图表、数学公式、几何图形甚至乐谱等特殊内容,输出结果可通过第三方工具渲染成多种格式。模型支持1024×1024高分辨率输入,具备多页批量处理、动态分块识别和交互式区域选择等创新功能,用户可通过坐标或颜色指定识别区域。基于Apache 2.0协议开源,提供Hugging Face演示和完整代码,适用于学术研究到工业应用的广泛场景,为OCR领域带来突破性解决方案。00openHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!C0378- WWan2.2-S2V-14B【Wan2.2 全新发布|更强画质,更快生成】新一代视频生成模型 Wan2.2,创新采用MoE架构,实现电影级美学与复杂运动控制,支持720P高清文本/图像生成视频,消费级显卡即可流畅运行,性能达业界领先水平Python00
- GGLM-4.5-AirGLM-4.5 系列模型是专为智能体设计的基础模型。GLM-4.5拥有 3550 亿总参数量,其中 320 亿活跃参数;GLM-4.5-Air采用更紧凑的设计,拥有 1060 亿总参数量,其中 120 亿活跃参数。GLM-4.5模型统一了推理、编码和智能体能力,以满足智能体应用的复杂需求Jinja00
Yi-Coder
Yi Coder 编程模型,小而强大的编程助手HTML013
热门内容推荐
1 freeCodeCamp Cafe Menu项目中link元素的void特性解析2 freeCodeCamp全栈开发课程中React实验项目的分类修正3 freeCodeCamp英语课程视频测验选项与提示不匹配问题分析4 freeCodeCamp课程中屏幕放大器知识点优化分析5 freeCodeCamp课程页面空白问题的技术分析与解决方案6 freeCodeCamp课程视频测验中的Tab键导航问题解析7 freeCodeCamp JavaScript高阶函数中的对象引用陷阱解析8 freeCodeCamp博客页面工作坊中的断言方法优化建议9 freeCodeCamp猫照片应用教程中的HTML注释测试问题分析10 freeCodeCamp全栈开发课程中测验游戏项目的参数顺序问题解析
最新内容推荐
OMNeT++中文使用手册:网络仿真的终极指南与实用教程 基于Matlab的等几何分析IGA软件包:工程计算与几何建模的完美融合 PADS元器件位号居中脚本:提升PCB设计效率的自动化利器 电脑PC网易云音乐免安装皮肤插件使用指南:个性化音乐播放体验 Python Django图书借阅管理系统:高效智能的图书馆管理解决方案 Python开发者的macOS终极指南:VSCode安装配置全攻略 WebVideoDownloader:高效网页视频抓取工具全面使用指南 ReportMachine.v7.0D5-XE10:Delphi报表生成利器深度解析与实战指南 PhysioNet医学研究数据库:临床数据分析与生物信号处理的权威资源指南 海康威视DS-7800N-K1固件升级包全面解析:提升安防设备性能的关键资源
项目优选
收起

React Native鸿蒙化仓库
C++
179
263

🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
869
514

openGauss kernel ~ openGauss is an open source relational database management system
C++
130
183

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
328
377

本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
333
1.09 K

harmony-utils 一款功能丰富且极易上手的HarmonyOS工具库,借助众多实用工具类,致力于助力开发者迅速构建鸿蒙应用。其封装的工具涵盖了APP、设备、屏幕、授权、通知、线程间通信、弹框、吐司、生物认证、用户首选项、拍照、相册、扫码、文件、日志,异常捕获、字符、字符串、数字、集合、日期、随机、base64、加密、解密、JSON等一系列的功能和操作,能够满足各种不同的开发需求。
ArkTS
28
0

为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.08 K
0

deepin linux kernel
C
22
5

微信开发 Java SDK,支持微信支付、开放平台、公众号、视频号、企业微信、小程序等的后端开发,记得关注公众号及时接受版本更新信息,以及加入微信群进行深入讨论
Java
829
22

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
601
58