机器学习项目mlcourse.ai中的关联规则学习:Python与R实战指南
2026-02-04 04:56:19作者:劳婵绚Shirley
关联规则学习基础:从啤酒与尿布说起
关联规则学习(Association Rules Learning, ARL)是数据挖掘领域中一种简单但实用的方法,用于发现数据集中的关联关系。这种方法最早由Piatesky-Shapiro在1991年提出,随后Agrawal等人在1993-1994年进一步发展完善。
经典案例:啤酒与尿布的关联
最著名的关联规则案例来自1992年Teradata咨询团队对Osco Drug超市120万笔交易的分析。他们发现一个反直觉的强关联规则:"在下午5-7点,啤酒和尿布经常被一起购买"。虽然最初管理层不相信这个发现,但后来发现这反映了年轻父亲的行为模式——下班后被妻子派去买尿布时,顺便给自己买啤酒。
关联规则的核心概念
数据表示形式
关联规则分析的数据通常表示为:
- 事务(Transaction):如购物小票
- 项集(Itemset):事务中的商品集合
- 项(Item):单个商品
数据可以表示为稀疏矩阵,其中1表示购买,0表示未购买。例如:
| 事务ID | 啤酒 | 尿布 | 可乐 |
|---|---|---|---|
| 1 | 1 | 1 | 1 |
| 2 | 0 | 1 | 0 |
| 3 | 1 | 0 | 1 |
关键指标
支持度(Support)
支持度表示项集在所有事务中出现的频率:
例如,啤酒和尿布同时出现的支持度为2/5=40%。
置信度(Confidence)
置信度表示规则的可信程度:
这类似于条件概率P(Y|X)。啤酒→尿布的置信度为(2/5)/(3/5)=67%。
提升度(Lift)
提升度衡量项之间的依赖程度:
提升度>1表示正相关。啤酒和尿布的提升度为1.11,表示这个组合比随机购买强11%。
确信度(Conviction)
确信度衡量规则的错误频率:
值越大表示规则越强。啤酒和尿布的确信度为1.81。
关联规则算法
暴力搜索算法
暴力搜索是最简单但效率最低的方法:
- 生成所有可能的项集组合
- 计算每个组合的支持度
- 筛选满足最小支持度的项集
复杂度为O(2^|I|),仅适用于小规模数据。例如34个商品就需要128GB内存。
Apriori算法
Apriori算法利用"频繁项集的子集也必须是频繁的"这一先验性质,通过逐层搜索来高效发现频繁项集。
算法步骤:
- 扫描数据库,找出所有频繁1-项集
- 使用频繁k-项集生成候选(k+1)-项集
- 剪枝:删除包含非频繁k-子集的候选
- 重复直到不能生成更大的频繁项集
Apriori通过减少候选集数量显著提高了效率,是关联规则挖掘的经典算法。
实际应用建议
- 数据预处理:将交易数据转换为适合分析的格式(如稀疏矩阵)
- 参数调优:合理设置最小支持度和置信度阈值
- 结果解释:不仅关注统计指标,还要结合实际业务理解规则含义
- 算法选择:根据数据规模选择合适算法,大数据可考虑FP-Growth等更高效方法
关联规则学习虽然概念简单,但在零售、推荐系统、医疗诊断等领域都有广泛应用。理解其核心原理并掌握实现方法,可以帮助我们从数据中发现有价值的关联模式。
登录后查看全文
热门项目推荐
相关项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust085- DDeepSeek-V4-ProDeepSeek-V4-Pro(总参数 1.6 万亿,激活 49B)面向复杂推理和高级编程任务,在代码竞赛、数学推理、Agent 工作流等场景表现优异,性能接近国际前沿闭源模型。Python00
MiniMax-M2.7MiniMax-M2.7 是我们首个深度参与自身进化过程的模型。M2.7 具备构建复杂智能体应用框架的能力,能够借助智能体团队、复杂技能以及动态工具搜索,完成高度精细的生产力任务。Python00
GLM-5.1GLM-5.1是智谱迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。Jinja00
Kimi-K2.6Kimi K2.6 是一款开源的原生多模态智能体模型,在长程编码、编码驱动设计、主动自主执行以及群体任务编排等实用能力方面实现了显著提升。Python00
Hy3-previewHy3 preview 是由腾讯混元团队研发的2950亿参数混合专家(Mixture-of-Experts, MoE)模型,包含210亿激活参数和38亿MTP层参数。Hy3 preview是在我们重构的基础设施上训练的首款模型,也是目前发布的性能最强的模型。该模型在复杂推理、指令遵循、上下文学习、代码生成及智能体任务等方面均实现了显著提升。Python00
项目优选
收起
暂无描述
Dockerfile
692
4.48 K
Ascend Extension for PyTorch
Python
554
675
Claude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed.
Get Started
Rust
463
85
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
955
933
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
409
329
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.59 K
930
昇腾LLM分布式训练框架
Python
147
175
Oohos_react_native
React Native鸿蒙化仓库
C++
336
387
暂无简介
Dart
939
235
本项目是CANN开源社区的核心管理仓库,包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息
653
232