首页
/ 基于cmfrec的矩阵分解推荐系统教程:融合辅助信息的协同过滤

基于cmfrec的矩阵分解推荐系统教程:融合辅助信息的协同过滤

2025-06-07 07:34:34作者:苗圣禹Peter

概述

本教程将详细介绍如何使用cmfrec库构建基于显式反馈数据的推荐系统,重点展示如何利用用户和物品的辅助信息来提升推荐效果。我们将以MovieLens100k数据集为例,该数据集包含约10万条电影评分,来自943位用户对1664部电影的1-5星评价。

矩阵分解基础

矩阵分解是推荐系统中最流行的技术之一,其核心思想是将用户-物品交互矩阵X近似分解为两个低维矩阵的乘积:

X ≈ ABᵀ + μ + b_A + b_B

其中:

  • A和B是低维潜在因子矩阵(通常30-100维)
  • μ是全局平均评分
  • b_A和b_B分别是用户和物品的偏置项

cmfrec库默认使用带L2正则化的交替最小二乘法(ALS)进行优化,并采用动态调整的正则化强度。

数据准备

我们从recommenderlab包中加载MovieLens100k数据,并将其转换为COO格式的稀疏矩阵:

library(cmfrec)
library(Matrix)
library(MatrixExtra)
library(recommenderlab)

data("MovieLense")
X <- as.coo.matrix(MovieLense@data)

训练测试集划分

我们将数据随机分为75%训练集和25%测试集:

subsample_coo_matrix <- function(X, indices) {
    X@i <- X@i[indices]
    X@j <- X@j[indices]
    X@x <- X@x[indices]
    return(X)
}

set.seed(123)
n_ratings <- length(X@x)
ix_train <- sample(n_ratings, floor(0.75*n_ratings), replace=FALSE)
X_train <- subsample_coo_matrix(X, ix_train)
X_test <- subsample_coo_matrix(X, -ix_train)

基础矩阵分解模型

首先我们构建一个经典的矩阵分解模型:

model.classic <- CMF(X_train, k=25, lambda=0.1, scale_lam=TRUE, verbose=FALSE)

模型评估

我们使用均方根误差(RMSE)评估模型在测试集上的表现:

print_rmse <- function(X_test, X_hat, model_name) {
  rmse <- sqrt(mean((X_test@x - X_hat@x)^2))
  cat(sprintf("RMSE for %s is: %.4f\n", model_name, rmse))
}

pred_classic <- predict(model.classic, X_test)
print_rmse(X_test, pred_classic, "classic model")

作为对比,非个性化模型的RMSE通常更高:

model.baseline <- MostPopular(X_train, lambda=10, scale_lam=FALSE)
pred_baseline <- predict(model.baseline, X_test)
print_rmse(X_test, pred_baseline, "non-personalized model")

模型优化技巧

我们可以通过以下方式改进基础模型:

  1. 使用Cholesky分解代替共轭梯度法
  2. 增加迭代次数
  3. 添加隐式特征共同分解
model.improved <- CMF(X_train, k=25, lambda=0.1, scale_lam=TRUE,
                     add_implicit_features=TRUE, w_main=0.75, w_implicit=0.25,
                     use_cg=FALSE, niter=30, verbose=FALSE)

融入辅助信息

集体矩阵分解(Collective Matrix Factorization)通过同时分解交互矩阵和辅助信息矩阵来提升推荐效果:

X ≈ ABᵀ + μ + b_A + b_B
U ≈ ACᵀ + μ_U
I ≈ BDᵀ + μ_I

其中U和I分别是用户和物品的特征矩阵。

准备辅助数据

我们从原始数据中提取用户和电影的特征:

# 用户特征
U <- MovieLenseUser
U$id <- NULL; U$zipcode <- NULL
U$age2 <- U$age^2
U$age <- (U$age - mean(U$age))/sd(U$age)
U$age2 <- (U$age2 - mean(U$age2))/sd(U$age2)
U <- model.matrix(~.-1, data=U)

# 电影特征
I <- MovieLenseMeta
I$title <- NULL; I$url <- NULL
I$year <- ifelse(is.na(I$year), median(I$year, na.rm=TRUE), I$year)
I$year2 <- I$year^2
I$year <- (I$year - mean(I$year))/sd(I$year)
I$year2 <- (I$year2 - mean(I$year2))/sd(I$year2)
I <- as.coo.matrix(I)

构建融合辅助信息的模型

model.w.sideinfo <- CMF(X_train, U=U, I=I, NA_as_zero_item=TRUE,
                       k=25, lambda=0.1, scale_lam=TRUE,
                       niter=30, use_cg=FALSE, include_all_X=FALSE,
                       w_main=0.75, w_user=0.5, w_item=0.5, w_implicit=0.5,
                       center_U=FALSE, center_I=FALSE, verbose=FALSE)

模型比较

下表展示了不同模型的RMSE表现:

模型类型 RMSE
非个性化模型 1.0516
经典矩阵分解 0.9431
改进的经典模型 0.9398
融合辅助信息的模型 0.9395

生成推荐列表

在实际应用中,我们通常需要为用户生成Top-N推荐列表。cmfrec提供了多种预测函数支持冷启动和热启动场景。

为现有用户推荐

# 重新训练全量数据模型
model.classic <- CMF(X, k=20, lambda=10, scale_lam=FALSE, verbose=FALSE)
model.w.sideinfo <- CMF(X, U=U, I=I, k=20, lambda=10, scale_lam=FALSE,
                       w_main=0.75, w_user=0.125, w_item=0.125, verbose=FALSE)

# 获取用户推荐
topN_classic <- topN(model.classic, user=10, n=5)
topN_sideinfo <- topN(model.w.sideinfo, user=10, n=5)

注意事项

  1. 由于数据量较小,RMSE的标准误差较大
  2. 模型超参数未经充分调优
  3. 测试集中可能包含训练集未出现的用户和物品
  4. RMSE指标可能掩盖过拟合问题
  5. 在小数据集上,动态调整的正则化可能产生不稳定的推荐结果

本教程展示了cmfrec库在构建推荐系统时的核心功能,通过合理利用辅助信息,我们可以构建出更加强大和灵活的推荐模型。

登录后查看全文
热门项目推荐

项目优选

收起
kernelkernel
deepin linux kernel
C
22
6
docsdocs
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
165
2.05 K
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
8
0
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
954
562
leetcodeleetcode
🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解
Java
60
16
apintoapinto
基于golang开发的网关。具有各种插件,可以自行扩展,即插即用。此外,它可以快速帮助企业管理API服务,提高API服务的稳定性和安全性。
Go
22
0
giteagitea
喝着茶写代码!最易用的自托管一站式代码托管平台,包含Git托管,代码审查,团队协作,软件包和CI/CD。
Go
17
0
HarmonyOS-ExamplesHarmonyOS-Examples
本仓将收集和展示仓颉鸿蒙应用示例代码,欢迎大家投稿,在仓颉鸿蒙社区展现你的妙趣设计!
Cangjie
407
387
金融AI编程实战金融AI编程实战
为非计算机科班出身 (例如财经类高校金融学院) 同学量身定制,新手友好,让学生以亲身实践开源开发的方式,学会使用计算机自动化自己的科研/创新工作。案例以量化投资为主线,涉及 Bash、Python、SQL、BI、AI 等全技术栈,培养面向未来的数智化人才 (如数据工程师、数据分析师、数据科学家、数据决策者、量化投资人)。
Python
77
71
rainbondrainbond
无需学习 Kubernetes 的容器平台,在 Kubernetes 上构建、部署、组装和管理应用,无需 K8s 专业知识,全流程图形化管理
Go
14
1