基于cmfrec的矩阵分解推荐系统教程:融合辅助信息的协同过滤
2025-06-07 14:24:14作者:苗圣禹Peter
概述
本教程将详细介绍如何使用cmfrec库构建基于显式反馈数据的推荐系统,重点展示如何利用用户和物品的辅助信息来提升推荐效果。我们将以MovieLens100k数据集为例,该数据集包含约10万条电影评分,来自943位用户对1664部电影的1-5星评价。
矩阵分解基础
矩阵分解是推荐系统中最流行的技术之一,其核心思想是将用户-物品交互矩阵X近似分解为两个低维矩阵的乘积:
X ≈ ABᵀ + μ + b_A + b_B
其中:
- A和B是低维潜在因子矩阵(通常30-100维)
- μ是全局平均评分
- b_A和b_B分别是用户和物品的偏置项
cmfrec库默认使用带L2正则化的交替最小二乘法(ALS)进行优化,并采用动态调整的正则化强度。
数据准备
我们从recommenderlab包中加载MovieLens100k数据,并将其转换为COO格式的稀疏矩阵:
library(cmfrec)
library(Matrix)
library(MatrixExtra)
library(recommenderlab)
data("MovieLense")
X <- as.coo.matrix(MovieLense@data)
训练测试集划分
我们将数据随机分为75%训练集和25%测试集:
subsample_coo_matrix <- function(X, indices) {
X@i <- X@i[indices]
X@j <- X@j[indices]
X@x <- X@x[indices]
return(X)
}
set.seed(123)
n_ratings <- length(X@x)
ix_train <- sample(n_ratings, floor(0.75*n_ratings), replace=FALSE)
X_train <- subsample_coo_matrix(X, ix_train)
X_test <- subsample_coo_matrix(X, -ix_train)
基础矩阵分解模型
首先我们构建一个经典的矩阵分解模型:
model.classic <- CMF(X_train, k=25, lambda=0.1, scale_lam=TRUE, verbose=FALSE)
模型评估
我们使用均方根误差(RMSE)评估模型在测试集上的表现:
print_rmse <- function(X_test, X_hat, model_name) {
rmse <- sqrt(mean((X_test@x - X_hat@x)^2))
cat(sprintf("RMSE for %s is: %.4f\n", model_name, rmse))
}
pred_classic <- predict(model.classic, X_test)
print_rmse(X_test, pred_classic, "classic model")
作为对比,非个性化模型的RMSE通常更高:
model.baseline <- MostPopular(X_train, lambda=10, scale_lam=FALSE)
pred_baseline <- predict(model.baseline, X_test)
print_rmse(X_test, pred_baseline, "non-personalized model")
模型优化技巧
我们可以通过以下方式改进基础模型:
- 使用Cholesky分解代替共轭梯度法
- 增加迭代次数
- 添加隐式特征共同分解
model.improved <- CMF(X_train, k=25, lambda=0.1, scale_lam=TRUE,
add_implicit_features=TRUE, w_main=0.75, w_implicit=0.25,
use_cg=FALSE, niter=30, verbose=FALSE)
融入辅助信息
集体矩阵分解(Collective Matrix Factorization)通过同时分解交互矩阵和辅助信息矩阵来提升推荐效果:
X ≈ ABᵀ + μ + b_A + b_B
U ≈ ACᵀ + μ_U
I ≈ BDᵀ + μ_I
其中U和I分别是用户和物品的特征矩阵。
准备辅助数据
我们从原始数据中提取用户和电影的特征:
# 用户特征
U <- MovieLenseUser
U$id <- NULL; U$zipcode <- NULL
U$age2 <- U$age^2
U$age <- (U$age - mean(U$age))/sd(U$age)
U$age2 <- (U$age2 - mean(U$age2))/sd(U$age2)
U <- model.matrix(~.-1, data=U)
# 电影特征
I <- MovieLenseMeta
I$title <- NULL; I$url <- NULL
I$year <- ifelse(is.na(I$year), median(I$year, na.rm=TRUE), I$year)
I$year2 <- I$year^2
I$year <- (I$year - mean(I$year))/sd(I$year)
I$year2 <- (I$year2 - mean(I$year2))/sd(I$year2)
I <- as.coo.matrix(I)
构建融合辅助信息的模型
model.w.sideinfo <- CMF(X_train, U=U, I=I, NA_as_zero_item=TRUE,
k=25, lambda=0.1, scale_lam=TRUE,
niter=30, use_cg=FALSE, include_all_X=FALSE,
w_main=0.75, w_user=0.5, w_item=0.5, w_implicit=0.5,
center_U=FALSE, center_I=FALSE, verbose=FALSE)
模型比较
下表展示了不同模型的RMSE表现:
| 模型类型 | RMSE |
|---|---|
| 非个性化模型 | 1.0516 |
| 经典矩阵分解 | 0.9431 |
| 改进的经典模型 | 0.9398 |
| 融合辅助信息的模型 | 0.9395 |
生成推荐列表
在实际应用中,我们通常需要为用户生成Top-N推荐列表。cmfrec提供了多种预测函数支持冷启动和热启动场景。
为现有用户推荐
# 重新训练全量数据模型
model.classic <- CMF(X, k=20, lambda=10, scale_lam=FALSE, verbose=FALSE)
model.w.sideinfo <- CMF(X, U=U, I=I, k=20, lambda=10, scale_lam=FALSE,
w_main=0.75, w_user=0.125, w_item=0.125, verbose=FALSE)
# 获取用户推荐
topN_classic <- topN(model.classic, user=10, n=5)
topN_sideinfo <- topN(model.w.sideinfo, user=10, n=5)
注意事项
- 由于数据量较小,RMSE的标准误差较大
- 模型超参数未经充分调优
- 测试集中可能包含训练集未出现的用户和物品
- RMSE指标可能掩盖过拟合问题
- 在小数据集上,动态调整的正则化可能产生不稳定的推荐结果
本教程展示了cmfrec库在构建推荐系统时的核心功能,通过合理利用辅助信息,我们可以构建出更加强大和灵活的推荐模型。
登录后查看全文
热门项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust099- DDeepSeek-V4-ProDeepSeek-V4-Pro(总参数 1.6 万亿,激活 49B)面向复杂推理和高级编程任务,在代码竞赛、数学推理、Agent 工作流等场景表现优异,性能接近国际前沿闭源模型。Python00
MiMo-V2.5-ProMiMo-V2.5-Pro作为旗舰模型,擅⻓处理复杂Agent任务,单次任务可完成近千次⼯具调⽤与⼗余轮上 下⽂压缩。Python00
GLM-5.1GLM-5.1是智谱迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。Jinja00
Kimi-K2.6Kimi K2.6 是一款开源的原生多模态智能体模型,在长程编码、编码驱动设计、主动自主执行以及群体任务编排等实用能力方面实现了显著提升。Python00
MiniMax-M2.7MiniMax-M2.7 是我们首个深度参与自身进化过程的模型。M2.7 具备构建复杂智能体应用框架的能力,能够借助智能体团队、复杂技能以及动态工具搜索,完成高度精细的生产力任务。Python00
热门内容推荐
最新内容推荐
项目优选
收起
暂无描述
Dockerfile
710
4.51 K
Claude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed.
Get Started
Rust
591
99
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
415
340
deepin linux kernel
C
28
16
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.61 K
942
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
958
955
昇腾LLM分布式训练框架
Python
150
177
Ascend Extension for PyTorch
Python
573
694
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
1.09 K
567
🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
1.43 K
116