基于cmfrec的矩阵分解推荐系统教程：融合辅助信息的协同过滤

2025-06-07 14:24:14作者：苗圣禹Peter

概述

本教程将详细介绍如何使用cmfrec库构建基于显式反馈数据的推荐系统，重点展示如何利用用户和物品的辅助信息来提升推荐效果。我们将以MovieLens100k数据集为例，该数据集包含约10万条电影评分，来自943位用户对1664部电影的1-5星评价。

矩阵分解基础

矩阵分解是推荐系统中最流行的技术之一，其核心思想是将用户-物品交互矩阵X近似分解为两个低维矩阵的乘积：

X ≈ ABᵀ + μ + b_A + b_B

其中：

A和B是低维潜在因子矩阵（通常30-100维）
μ是全局平均评分
b_A和b_B分别是用户和物品的偏置项

cmfrec库默认使用带L2正则化的交替最小二乘法(ALS)进行优化，并采用动态调整的正则化强度。

数据准备

我们从recommenderlab包中加载MovieLens100k数据，并将其转换为COO格式的稀疏矩阵：

library(cmfrec)
library(Matrix)
library(MatrixExtra)
library(recommenderlab)

data("MovieLense")
X <- as.coo.matrix(MovieLense@data)

训练测试集划分

我们将数据随机分为75%训练集和25%测试集：

subsample_coo_matrix <- function(X, indices) {
    X@i <- X@i[indices]
    X@j <- X@j[indices]
    X@x <- X@x[indices]
    return(X)
}

set.seed(123)
n_ratings <- length(X@x)
ix_train <- sample(n_ratings, floor(0.75*n_ratings), replace=FALSE)
X_train <- subsample_coo_matrix(X, ix_train)
X_test <- subsample_coo_matrix(X, -ix_train)

基础矩阵分解模型

首先我们构建一个经典的矩阵分解模型：

model.classic <- CMF(X_train, k=25, lambda=0.1, scale_lam=TRUE, verbose=FALSE)

模型评估

我们使用均方根误差(RMSE)评估模型在测试集上的表现：

print_rmse <- function(X_test, X_hat, model_name) {
  rmse <- sqrt(mean((X_test@x - X_hat@x)^2))
  cat(sprintf("RMSE for %s is: %.4f\n", model_name, rmse))
}

pred_classic <- predict(model.classic, X_test)
print_rmse(X_test, pred_classic, "classic model")

作为对比，非个性化模型的RMSE通常更高：

model.baseline <- MostPopular(X_train, lambda=10, scale_lam=FALSE)
pred_baseline <- predict(model.baseline, X_test)
print_rmse(X_test, pred_baseline, "non-personalized model")

模型优化技巧

我们可以通过以下方式改进基础模型：

使用Cholesky分解代替共轭梯度法
增加迭代次数
添加隐式特征共同分解

model.improved <- CMF(X_train, k=25, lambda=0.1, scale_lam=TRUE,
                     add_implicit_features=TRUE, w_main=0.75, w_implicit=0.25,
                     use_cg=FALSE, niter=30, verbose=FALSE)

融入辅助信息

集体矩阵分解(Collective Matrix Factorization)通过同时分解交互矩阵和辅助信息矩阵来提升推荐效果：

X ≈ ABᵀ + μ + b_A + b_B
U ≈ ACᵀ + μ_U
I ≈ BDᵀ + μ_I

其中U和I分别是用户和物品的特征矩阵。

准备辅助数据

我们从原始数据中提取用户和电影的特征：

# 用户特征
U <- MovieLenseUser
U$id <- NULL; U$zipcode <- NULL
U$age2 <- U$age^2
U$age <- (U$age - mean(U$age))/sd(U$age)
U$age2 <- (U$age2 - mean(U$age2))/sd(U$age2)
U <- model.matrix(~.-1, data=U)

# 电影特征
I <- MovieLenseMeta
I$title <- NULL; I$url <- NULL
I$year <- ifelse(is.na(I$year), median(I$year, na.rm=TRUE), I$year)
I$year2 <- I$year^2
I$year <- (I$year - mean(I$year))/sd(I$year)
I$year2 <- (I$year2 - mean(I$year2))/sd(I$year2)
I <- as.coo.matrix(I)

构建融合辅助信息的模型

model.w.sideinfo <- CMF(X_train, U=U, I=I, NA_as_zero_item=TRUE,
                       k=25, lambda=0.1, scale_lam=TRUE,
                       niter=30, use_cg=FALSE, include_all_X=FALSE,
                       w_main=0.75, w_user=0.5, w_item=0.5, w_implicit=0.5,
                       center_U=FALSE, center_I=FALSE, verbose=FALSE)

模型比较

下表展示了不同模型的RMSE表现：

模型类型	RMSE
非个性化模型	1.0516
经典矩阵分解	0.9431
改进的经典模型	0.9398
融合辅助信息的模型	0.9395

生成推荐列表

在实际应用中，我们通常需要为用户生成Top-N推荐列表。cmfrec提供了多种预测函数支持冷启动和热启动场景。

为现有用户推荐

# 重新训练全量数据模型
model.classic <- CMF(X, k=20, lambda=10, scale_lam=FALSE, verbose=FALSE)
model.w.sideinfo <- CMF(X, U=U, I=I, k=20, lambda=10, scale_lam=FALSE,
                       w_main=0.75, w_user=0.125, w_item=0.125, verbose=FALSE)

# 获取用户推荐
topN_classic <- topN(model.classic, user=10, n=5)
topN_sideinfo <- topN(model.w.sideinfo, user=10, n=5)