首页
/ 基于cmfrec的矩阵分解推荐系统教程:融合辅助信息的协同过滤

基于cmfrec的矩阵分解推荐系统教程:融合辅助信息的协同过滤

2025-06-07 08:38:40作者:苗圣禹Peter

概述

本教程将详细介绍如何使用cmfrec库构建基于显式反馈数据的推荐系统,重点展示如何利用用户和物品的辅助信息来提升推荐效果。我们将以MovieLens100k数据集为例,该数据集包含约10万条电影评分,来自943位用户对1664部电影的1-5星评价。

矩阵分解基础

矩阵分解是推荐系统中最流行的技术之一,其核心思想是将用户-物品交互矩阵X近似分解为两个低维矩阵的乘积:

X ≈ ABᵀ + μ + b_A + b_B

其中:

  • A和B是低维潜在因子矩阵(通常30-100维)
  • μ是全局平均评分
  • b_A和b_B分别是用户和物品的偏置项

cmfrec库默认使用带L2正则化的交替最小二乘法(ALS)进行优化,并采用动态调整的正则化强度。

数据准备

我们从recommenderlab包中加载MovieLens100k数据,并将其转换为COO格式的稀疏矩阵:

library(cmfrec)
library(Matrix)
library(MatrixExtra)
library(recommenderlab)

data("MovieLense")
X <- as.coo.matrix(MovieLense@data)

训练测试集划分

我们将数据随机分为75%训练集和25%测试集:

subsample_coo_matrix <- function(X, indices) {
    X@i <- X@i[indices]
    X@j <- X@j[indices]
    X@x <- X@x[indices]
    return(X)
}

set.seed(123)
n_ratings <- length(X@x)
ix_train <- sample(n_ratings, floor(0.75*n_ratings), replace=FALSE)
X_train <- subsample_coo_matrix(X, ix_train)
X_test <- subsample_coo_matrix(X, -ix_train)

基础矩阵分解模型

首先我们构建一个经典的矩阵分解模型:

model.classic <- CMF(X_train, k=25, lambda=0.1, scale_lam=TRUE, verbose=FALSE)

模型评估

我们使用均方根误差(RMSE)评估模型在测试集上的表现:

print_rmse <- function(X_test, X_hat, model_name) {
  rmse <- sqrt(mean((X_test@x - X_hat@x)^2))
  cat(sprintf("RMSE for %s is: %.4f\n", model_name, rmse))
}

pred_classic <- predict(model.classic, X_test)
print_rmse(X_test, pred_classic, "classic model")

作为对比,非个性化模型的RMSE通常更高:

model.baseline <- MostPopular(X_train, lambda=10, scale_lam=FALSE)
pred_baseline <- predict(model.baseline, X_test)
print_rmse(X_test, pred_baseline, "non-personalized model")

模型优化技巧

我们可以通过以下方式改进基础模型:

  1. 使用Cholesky分解代替共轭梯度法
  2. 增加迭代次数
  3. 添加隐式特征共同分解
model.improved <- CMF(X_train, k=25, lambda=0.1, scale_lam=TRUE,
                     add_implicit_features=TRUE, w_main=0.75, w_implicit=0.25,
                     use_cg=FALSE, niter=30, verbose=FALSE)

融入辅助信息

集体矩阵分解(Collective Matrix Factorization)通过同时分解交互矩阵和辅助信息矩阵来提升推荐效果:

X ≈ ABᵀ + μ + b_A + b_B
U ≈ ACᵀ + μ_U
I ≈ BDᵀ + μ_I

其中U和I分别是用户和物品的特征矩阵。

准备辅助数据

我们从原始数据中提取用户和电影的特征:

# 用户特征
U <- MovieLenseUser
U$id <- NULL; U$zipcode <- NULL
U$age2 <- U$age^2
U$age <- (U$age - mean(U$age))/sd(U$age)
U$age2 <- (U$age2 - mean(U$age2))/sd(U$age2)
U <- model.matrix(~.-1, data=U)

# 电影特征
I <- MovieLenseMeta
I$title <- NULL; I$url <- NULL
I$year <- ifelse(is.na(I$year), median(I$year, na.rm=TRUE), I$year)
I$year2 <- I$year^2
I$year <- (I$year - mean(I$year))/sd(I$year)
I$year2 <- (I$year2 - mean(I$year2))/sd(I$year2)
I <- as.coo.matrix(I)

构建融合辅助信息的模型

model.w.sideinfo <- CMF(X_train, U=U, I=I, NA_as_zero_item=TRUE,
                       k=25, lambda=0.1, scale_lam=TRUE,
                       niter=30, use_cg=FALSE, include_all_X=FALSE,
                       w_main=0.75, w_user=0.5, w_item=0.5, w_implicit=0.5,
                       center_U=FALSE, center_I=FALSE, verbose=FALSE)

模型比较

下表展示了不同模型的RMSE表现:

模型类型 RMSE
非个性化模型 1.0516
经典矩阵分解 0.9431
改进的经典模型 0.9398
融合辅助信息的模型 0.9395

生成推荐列表

在实际应用中,我们通常需要为用户生成Top-N推荐列表。cmfrec提供了多种预测函数支持冷启动和热启动场景。

为现有用户推荐

# 重新训练全量数据模型
model.classic <- CMF(X, k=20, lambda=10, scale_lam=FALSE, verbose=FALSE)
model.w.sideinfo <- CMF(X, U=U, I=I, k=20, lambda=10, scale_lam=FALSE,
                       w_main=0.75, w_user=0.125, w_item=0.125, verbose=FALSE)

# 获取用户推荐
topN_classic <- topN(model.classic, user=10, n=5)
topN_sideinfo <- topN(model.w.sideinfo, user=10, n=5)

注意事项

  1. 由于数据量较小,RMSE的标准误差较大
  2. 模型超参数未经充分调优
  3. 测试集中可能包含训练集未出现的用户和物品
  4. RMSE指标可能掩盖过拟合问题
  5. 在小数据集上,动态调整的正则化可能产生不稳定的推荐结果

本教程展示了cmfrec库在构建推荐系统时的核心功能,通过合理利用辅助信息,我们可以构建出更加强大和灵活的推荐模型。

登录后查看全文
热门项目推荐