Torchmetrics中实现可微分的VMAF视频质量评估指标

2025-07-03 12:55:56作者：昌雅子Ethen

背景介绍

视频多方法评估融合(VMAF)是Netflix开发的一种广泛使用的视频质量评估指标，它结合了多个基础质量指标来预测人类对视频质量的感知评分。传统的VMAF实现基于C语言，无法直接集成到深度学习训练流程中作为损失函数使用。

技术突破

最近出现了一个基于PyTorch实现的可微分VMAF版本，这个实现具有以下特点：

完全基于PyTorch实现，无需依赖原始C语言二进制文件
支持自动微分，可以直接作为损失函数使用
保留了VMAF的核心评估能力
提供了灵活的配置选项

实现细节

该PyTorch实现包含了VMAF的主要组件：

时间池化(temporal pooling)功能
运动信息处理(enable_motion)
分数裁剪(clip_score)选项
支持单帧图像和视频序列评估

使用示例

在实际应用中，可以结合其他损失函数(如MSE)一起使用。以下是一个典型的使用范例：

import torch
from torch import nn
from vmaf_torch import VMAF

class VMAFLoss(nn.Module):
    def __init__(self):
        super().__init__()
        # 初始化VMAF评估器
        self.vmaf = VMAF(temporal_pooling=True, 
                         enable_motion=True, 
                         clip_score=True, 
                         NEG=False).to(torch.float32)
        
        # 冻结所有参数
        for param in self.vmaf.parameters():
            param.requires_grad = False

    def get_luma(self, video):
        # 从RGB视频中提取亮度分量
        r = video[..., 0, :, :]
        g = video[..., 1, :, :]
        b = video[..., 2, :, :]
        y = 0.299 * r + 0.587 * g + 0.114 * b
        return y.unsqueeze(1) * 255  # 转换为0-255范围

    def forward(self, dist, ref):
        # 保存原始数据类型
        orig_dtype = dist.dtype
        
        # 归一化处理
        dist = (dist.clamp(-1, 1).to(torch.float32) + 1) / 2
        ref = (ref.clamp(-1, 1).to(torch.float32) + 1) / 2

        # 提取亮度分量
        dist_luma = self.get_luma(dist)
        ref_luma = self.get_luma(ref)

        # 计算VMAF损失
        vmaf_loss = 1 - self.vmaf(ref_luma, dist_luma) / 100
        
        return vmaf_loss.to(orig_dtype)