机器学习项目mlcourse.ai中的关联规则学习:Python与R实战指南
2026-02-04 04:56:19作者:劳婵绚Shirley
关联规则学习基础:从啤酒与尿布说起
关联规则学习(Association Rules Learning, ARL)是数据挖掘领域中一种简单但实用的方法,用于发现数据集中的关联关系。这种方法最早由Piatesky-Shapiro在1991年提出,随后Agrawal等人在1993-1994年进一步发展完善。
经典案例:啤酒与尿布的关联
最著名的关联规则案例来自1992年Teradata咨询团队对Osco Drug超市120万笔交易的分析。他们发现一个反直觉的强关联规则:"在下午5-7点,啤酒和尿布经常被一起购买"。虽然最初管理层不相信这个发现,但后来发现这反映了年轻父亲的行为模式——下班后被妻子派去买尿布时,顺便给自己买啤酒。
关联规则的核心概念
数据表示形式
关联规则分析的数据通常表示为:
- 事务(Transaction):如购物小票
- 项集(Itemset):事务中的商品集合
- 项(Item):单个商品
数据可以表示为稀疏矩阵,其中1表示购买,0表示未购买。例如:
| 事务ID | 啤酒 | 尿布 | 可乐 |
|---|---|---|---|
| 1 | 1 | 1 | 1 |
| 2 | 0 | 1 | 0 |
| 3 | 1 | 0 | 1 |
关键指标
支持度(Support)
支持度表示项集在所有事务中出现的频率:
例如,啤酒和尿布同时出现的支持度为2/5=40%。
置信度(Confidence)
置信度表示规则的可信程度:
这类似于条件概率P(Y|X)。啤酒→尿布的置信度为(2/5)/(3/5)=67%。
提升度(Lift)
提升度衡量项之间的依赖程度:
提升度>1表示正相关。啤酒和尿布的提升度为1.11,表示这个组合比随机购买强11%。
确信度(Conviction)
确信度衡量规则的错误频率:
值越大表示规则越强。啤酒和尿布的确信度为1.81。
关联规则算法
暴力搜索算法
暴力搜索是最简单但效率最低的方法:
- 生成所有可能的项集组合
- 计算每个组合的支持度
- 筛选满足最小支持度的项集
复杂度为O(2^|I|),仅适用于小规模数据。例如34个商品就需要128GB内存。
Apriori算法
Apriori算法利用"频繁项集的子集也必须是频繁的"这一先验性质,通过逐层搜索来高效发现频繁项集。
算法步骤:
- 扫描数据库,找出所有频繁1-项集
- 使用频繁k-项集生成候选(k+1)-项集
- 剪枝:删除包含非频繁k-子集的候选
- 重复直到不能生成更大的频繁项集
Apriori通过减少候选集数量显著提高了效率,是关联规则挖掘的经典算法。
实际应用建议
- 数据预处理:将交易数据转换为适合分析的格式(如稀疏矩阵)
- 参数调优:合理设置最小支持度和置信度阈值
- 结果解释:不仅关注统计指标,还要结合实际业务理解规则含义
- 算法选择:根据数据规模选择合适算法,大数据可考虑FP-Growth等更高效方法
关联规则学习虽然概念简单,但在零售、推荐系统、医疗诊断等领域都有广泛应用。理解其核心原理并掌握实现方法,可以帮助我们从数据中发现有价值的关联模式。
登录后查看全文
热门项目推荐
相关项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0213
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0137
JoyAI-EchoJoyAI-Echo,这是一个独立的、仅用于推理的版本,旨在实现分钟级多镜头音视频生成。它采用了经过蒸馏的DMD生成器、配对的跨模态记忆以及故事级别的一致性。其性能的核心在于,一个跨模态视听记忆库能够在长达五分钟的视频中保持角色外观和语音音色的一致性。同时,一个训练后处理流程将基于记忆的强化学习与分布匹配蒸馏相结合,实现了7.5倍的速度提升,显著增强了视觉质量和对齐效果。00
GLM-5.2智谱开源 GLM-5.2,这是针对长文本任务的最新旗舰模型。相较于前代产品 GLM-5.1,它在长文本任务处理能力上实现了显著飞跃,并且首次在稳定的 100 万 token 上下文中提供这一能力。Jinja00
SwanLab⚡️SwanLab - an open-source, modern-design AI training tracking and visualization tool. Supports Cloud / Self-hosted use. Integrated with PyTorch / Transformers / LLaMA Factory / veRL/ Swift / Ultralytics / MMEngine / Keras etc.Python00
tiny-universe《大模型白盒子构建指南》:一个全手搓的Tiny-UniverseJupyter Notebook03
项目优选
收起
deepin linux kernel
C
32
16
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
468
461
暂无描述
Dockerfile
776
5.07 K
Ascend Extension for PyTorch
Python
756
961
本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。
C++
872
2.01 K
本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。
C++
696
1.4 K
昇腾LLM分布式训练框架
Python
183
230
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
1.1 K
1.14 K
本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本,由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用,3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。
Dart
1.04 K
271
Oohos_react_native
React Native鸿蒙化仓库
C++
361
430