机器学习项目mlcourse.ai中的关联规则学习:Python与R实战指南
2026-02-04 04:56:19作者:劳婵绚Shirley
关联规则学习基础:从啤酒与尿布说起
关联规则学习(Association Rules Learning, ARL)是数据挖掘领域中一种简单但实用的方法,用于发现数据集中的关联关系。这种方法最早由Piatesky-Shapiro在1991年提出,随后Agrawal等人在1993-1994年进一步发展完善。
经典案例:啤酒与尿布的关联
最著名的关联规则案例来自1992年Teradata咨询团队对Osco Drug超市120万笔交易的分析。他们发现一个反直觉的强关联规则:"在下午5-7点,啤酒和尿布经常被一起购买"。虽然最初管理层不相信这个发现,但后来发现这反映了年轻父亲的行为模式——下班后被妻子派去买尿布时,顺便给自己买啤酒。
关联规则的核心概念
数据表示形式
关联规则分析的数据通常表示为:
- 事务(Transaction):如购物小票
- 项集(Itemset):事务中的商品集合
- 项(Item):单个商品
数据可以表示为稀疏矩阵,其中1表示购买,0表示未购买。例如:
| 事务ID | 啤酒 | 尿布 | 可乐 |
|---|---|---|---|
| 1 | 1 | 1 | 1 |
| 2 | 0 | 1 | 0 |
| 3 | 1 | 0 | 1 |
关键指标
支持度(Support)
支持度表示项集在所有事务中出现的频率:
例如,啤酒和尿布同时出现的支持度为2/5=40%。
置信度(Confidence)
置信度表示规则的可信程度:
这类似于条件概率P(Y|X)。啤酒→尿布的置信度为(2/5)/(3/5)=67%。
提升度(Lift)
提升度衡量项之间的依赖程度:
提升度>1表示正相关。啤酒和尿布的提升度为1.11,表示这个组合比随机购买强11%。
确信度(Conviction)
确信度衡量规则的错误频率:
值越大表示规则越强。啤酒和尿布的确信度为1.81。
关联规则算法
暴力搜索算法
暴力搜索是最简单但效率最低的方法:
- 生成所有可能的项集组合
- 计算每个组合的支持度
- 筛选满足最小支持度的项集
复杂度为O(2^|I|),仅适用于小规模数据。例如34个商品就需要128GB内存。
Apriori算法
Apriori算法利用"频繁项集的子集也必须是频繁的"这一先验性质,通过逐层搜索来高效发现频繁项集。
算法步骤:
- 扫描数据库,找出所有频繁1-项集
- 使用频繁k-项集生成候选(k+1)-项集
- 剪枝:删除包含非频繁k-子集的候选
- 重复直到不能生成更大的频繁项集
Apriori通过减少候选集数量显著提高了效率,是关联规则挖掘的经典算法。
实际应用建议
- 数据预处理:将交易数据转换为适合分析的格式(如稀疏矩阵)
- 参数调优:合理设置最小支持度和置信度阈值
- 结果解释:不仅关注统计指标,还要结合实际业务理解规则含义
- 算法选择:根据数据规模选择合适算法,大数据可考虑FP-Growth等更高效方法
关联规则学习虽然概念简单,但在零售、推荐系统、医疗诊断等领域都有广泛应用。理解其核心原理并掌握实现方法,可以帮助我们从数据中发现有价值的关联模式。
登录后查看全文
热门项目推荐
相关项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0152- DDeepSeek-V4-ProDeepSeek-V4-Pro(总参数 1.6 万亿,激活 49B)面向复杂推理和高级编程任务,在代码竞赛、数学推理、Agent 工作流等场景表现优异,性能接近国际前沿闭源模型。Python00
LongCat-Video-Avatar-1.5最新开源LongCat-Video-Avatar 1.5 版本,这是一款经过升级的开源框架,专注于音频驱动人物视频生成的极致实证优化与生产级就绪能力。该版本在 LongCat-Video 基础模型之上构建,可生成高度稳定的商用级虚拟人视频,支持音频-文本转视频(AT2V)、音频-文本-图像转视频(ATI2V)以及视频续播等原生任务,并能无缝兼容单流与多流音频输入。00
auto-devAutoDev 是一个 AI 驱动的辅助编程插件。AutoDev 支持一键生成测试、代码、提交信息等,还能够与您的需求管理系统(例如Jira、Trello、Github Issue 等)直接对接。 在IDE 中,您只需简单点击,AutoDev 会根据您的需求自动为您生成代码。Kotlin03
Intern-S2-PreviewIntern-S2-Preview,这是一款高效的350亿参数科学多模态基础模型。除了常规的参数与数据规模扩展外,Intern-S2-Preview探索了任务扩展:通过提升科学任务的难度、多样性与覆盖范围,进一步释放模型能力。Python00
skillhubopenJiuwen 生态的 Skill 托管与分发开源方案,支持自建与可选 ClawHub 兼容。Python0112
热门内容推荐
最新内容推荐
项目优选
收起
暂无描述
Dockerfile
733
4.75 K
Ascend Extension for PyTorch
Python
617
795
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
1.01 K
1.01 K
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
433
395
华为昇腾面向大规模分布式训练的多模态大模型套件,支撑多模态生成、多模态理解。
Python
145
237
Claude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed.
Get Started
Rust
1.18 K
152
暂无简介
Dart
983
252
Oohos_react_native
React Native鸿蒙化仓库
C++
348
403
昇腾LLM分布式训练框架
Python
166
198
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.68 K
989