基于cmfrec的矩阵分解推荐系统教程:融合辅助信息的协同过滤
2025-06-07 07:34:34作者:苗圣禹Peter
概述
本教程将详细介绍如何使用cmfrec库构建基于显式反馈数据的推荐系统,重点展示如何利用用户和物品的辅助信息来提升推荐效果。我们将以MovieLens100k数据集为例,该数据集包含约10万条电影评分,来自943位用户对1664部电影的1-5星评价。
矩阵分解基础
矩阵分解是推荐系统中最流行的技术之一,其核心思想是将用户-物品交互矩阵X近似分解为两个低维矩阵的乘积:
X ≈ ABᵀ + μ + b_A + b_B
其中:
- A和B是低维潜在因子矩阵(通常30-100维)
- μ是全局平均评分
- b_A和b_B分别是用户和物品的偏置项
cmfrec库默认使用带L2正则化的交替最小二乘法(ALS)进行优化,并采用动态调整的正则化强度。
数据准备
我们从recommenderlab包中加载MovieLens100k数据,并将其转换为COO格式的稀疏矩阵:
library(cmfrec)
library(Matrix)
library(MatrixExtra)
library(recommenderlab)
data("MovieLense")
X <- as.coo.matrix(MovieLense@data)
训练测试集划分
我们将数据随机分为75%训练集和25%测试集:
subsample_coo_matrix <- function(X, indices) {
X@i <- X@i[indices]
X@j <- X@j[indices]
X@x <- X@x[indices]
return(X)
}
set.seed(123)
n_ratings <- length(X@x)
ix_train <- sample(n_ratings, floor(0.75*n_ratings), replace=FALSE)
X_train <- subsample_coo_matrix(X, ix_train)
X_test <- subsample_coo_matrix(X, -ix_train)
基础矩阵分解模型
首先我们构建一个经典的矩阵分解模型:
model.classic <- CMF(X_train, k=25, lambda=0.1, scale_lam=TRUE, verbose=FALSE)
模型评估
我们使用均方根误差(RMSE)评估模型在测试集上的表现:
print_rmse <- function(X_test, X_hat, model_name) {
rmse <- sqrt(mean((X_test@x - X_hat@x)^2))
cat(sprintf("RMSE for %s is: %.4f\n", model_name, rmse))
}
pred_classic <- predict(model.classic, X_test)
print_rmse(X_test, pred_classic, "classic model")
作为对比,非个性化模型的RMSE通常更高:
model.baseline <- MostPopular(X_train, lambda=10, scale_lam=FALSE)
pred_baseline <- predict(model.baseline, X_test)
print_rmse(X_test, pred_baseline, "non-personalized model")
模型优化技巧
我们可以通过以下方式改进基础模型:
- 使用Cholesky分解代替共轭梯度法
- 增加迭代次数
- 添加隐式特征共同分解
model.improved <- CMF(X_train, k=25, lambda=0.1, scale_lam=TRUE,
add_implicit_features=TRUE, w_main=0.75, w_implicit=0.25,
use_cg=FALSE, niter=30, verbose=FALSE)
融入辅助信息
集体矩阵分解(Collective Matrix Factorization)通过同时分解交互矩阵和辅助信息矩阵来提升推荐效果:
X ≈ ABᵀ + μ + b_A + b_B
U ≈ ACᵀ + μ_U
I ≈ BDᵀ + μ_I
其中U和I分别是用户和物品的特征矩阵。
准备辅助数据
我们从原始数据中提取用户和电影的特征:
# 用户特征
U <- MovieLenseUser
U$id <- NULL; U$zipcode <- NULL
U$age2 <- U$age^2
U$age <- (U$age - mean(U$age))/sd(U$age)
U$age2 <- (U$age2 - mean(U$age2))/sd(U$age2)
U <- model.matrix(~.-1, data=U)
# 电影特征
I <- MovieLenseMeta
I$title <- NULL; I$url <- NULL
I$year <- ifelse(is.na(I$year), median(I$year, na.rm=TRUE), I$year)
I$year2 <- I$year^2
I$year <- (I$year - mean(I$year))/sd(I$year)
I$year2 <- (I$year2 - mean(I$year2))/sd(I$year2)
I <- as.coo.matrix(I)
构建融合辅助信息的模型
model.w.sideinfo <- CMF(X_train, U=U, I=I, NA_as_zero_item=TRUE,
k=25, lambda=0.1, scale_lam=TRUE,
niter=30, use_cg=FALSE, include_all_X=FALSE,
w_main=0.75, w_user=0.5, w_item=0.5, w_implicit=0.5,
center_U=FALSE, center_I=FALSE, verbose=FALSE)
模型比较
下表展示了不同模型的RMSE表现:
模型类型 | RMSE |
---|---|
非个性化模型 | 1.0516 |
经典矩阵分解 | 0.9431 |
改进的经典模型 | 0.9398 |
融合辅助信息的模型 | 0.9395 |
生成推荐列表
在实际应用中,我们通常需要为用户生成Top-N推荐列表。cmfrec提供了多种预测函数支持冷启动和热启动场景。
为现有用户推荐
# 重新训练全量数据模型
model.classic <- CMF(X, k=20, lambda=10, scale_lam=FALSE, verbose=FALSE)
model.w.sideinfo <- CMF(X, U=U, I=I, k=20, lambda=10, scale_lam=FALSE,
w_main=0.75, w_user=0.125, w_item=0.125, verbose=FALSE)
# 获取用户推荐
topN_classic <- topN(model.classic, user=10, n=5)
topN_sideinfo <- topN(model.w.sideinfo, user=10, n=5)
注意事项
- 由于数据量较小,RMSE的标准误差较大
- 模型超参数未经充分调优
- 测试集中可能包含训练集未出现的用户和物品
- RMSE指标可能掩盖过拟合问题
- 在小数据集上,动态调整的正则化可能产生不稳定的推荐结果
本教程展示了cmfrec库在构建推荐系统时的核心功能,通过合理利用辅助信息,我们可以构建出更加强大和灵活的推荐模型。
登录后查看全文
热门项目推荐
HunyuanImage-3.0
HunyuanImage-3.0 统一多模态理解与生成,基于自回归框架,实现文本生成图像,性能媲美或超越领先闭源模型00ops-transformer
本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。C++045Hunyuan3D-Part
腾讯混元3D-Part00GitCode-文心大模型-智源研究院AI应用开发大赛
GitCode&文心大模型&智源研究院强强联合,发起的AI应用开发大赛;总奖池8W,单人最高可得价值3W奖励。快来参加吧~0289Hunyuan3D-Omni
腾讯混元3D-Omni:3D版ControlNet突破多模态控制,实现高精度3D资产生成00GOT-OCR-2.0-hf
阶跃星辰StepFun推出的GOT-OCR-2.0-hf是一款强大的多语言OCR开源模型,支持从普通文档到复杂场景的文字识别。它能精准处理表格、图表、数学公式、几何图形甚至乐谱等特殊内容,输出结果可通过第三方工具渲染成多种格式。模型支持1024×1024高分辨率输入,具备多页批量处理、动态分块识别和交互式区域选择等创新功能,用户可通过坐标或颜色指定识别区域。基于Apache 2.0协议开源,提供Hugging Face演示和完整代码,适用于学术研究到工业应用的广泛场景,为OCR领域带来突破性解决方案。00- HHowToCook程序员在家做饭方法指南。Programmer's guide about how to cook at home (Chinese only).Dockerfile09
- PpathwayPathway is an open framework for high-throughput and low-latency real-time data processing.Python00
项目优选
收起

deepin linux kernel
C
22
6

OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
165
2.05 K

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
8
0

🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
954
562

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解
Java
60
16

基于golang开发的网关。具有各种插件,可以自行扩展,即插即用。此外,它可以快速帮助企业管理API服务,提高API服务的稳定性和安全性。
Go
22
0

喝着茶写代码!最易用的自托管一站式代码托管平台,包含Git托管,代码审查,团队协作,软件包和CI/CD。
Go
17
0

本仓将收集和展示仓颉鸿蒙应用示例代码,欢迎大家投稿,在仓颉鸿蒙社区展现你的妙趣设计!
Cangjie
407
387

为非计算机科班出身 (例如财经类高校金融学院) 同学量身定制,新手友好,让学生以亲身实践开源开发的方式,学会使用计算机自动化自己的科研/创新工作。案例以量化投资为主线,涉及 Bash、Python、SQL、BI、AI 等全技术栈,培养面向未来的数智化人才 (如数据工程师、数据分析师、数据科学家、数据决策者、量化投资人)。
Python
77
71

无需学习 Kubernetes 的容器平台,在 Kubernetes 上构建、部署、组装和管理应用,无需 K8s 专业知识,全流程图形化管理
Go
14
1