Glance项目中过滤YouTube Shorts视频的技术实现方案

2025-05-09 16:15:19作者：农烁颖Land

在开源项目Glance的视频组件开发过程中，YouTube短视频的过滤需求成为了一个技术挑战。本文将深入分析这一问题的技术背景、现有解决方案的优缺点，以及可能的优化方向。

问题背景

YouTube短视频是YouTube推出的短内容功能，时长通常在60秒以内。在Glance项目的视频组件中，用户希望只显示常规视频内容，而过滤掉这些短视频。核心挑战在于如何在不显著影响性能的前提下，准确识别视频类型。

技术方案分析

1. HTML解析方案

最初提出的方案是通过解析YouTube视频页面的HTML内容来获取视频时长。该方法需要：

发送HTTP请求获取完整HTML页面
使用正则表达式匹配视频时长信息
根据时长判断是否为短视频

优点：实现直接，准确率高缺点：每个视频都需要额外请求，850KB+的HTML解析开销大，严重影响性能

2. YouTube Data API方案

考虑使用官方API获取视频元数据：

通过video.list接口查询视频详情
从返回的JSON中提取duration字段

优点：数据准确可靠缺点：需要API密钥，有配额限制，不适合大规模使用

3. HTTP HEAD请求探测方案

创新性地提出使用HEAD方法探测：

对/shorts/VIDEO_ID路径发送HEAD请求
根据响应状态码判断(200为短视频，303为常规视频)

优点：请求量小，无响应体传输缺点：仍需要多次请求，存在误判可能

4. 边缘计算方案

提出使用CDN Worker作为代理：

部署轻量级Worker处理视频ID
Worker获取并解析HTML后返回精简数据
主应用只需处理Worker的响应

优点：分散计算压力，减少客户端负担缺点：需要额外基础设施，存在维护成本

性能考量

对于包含37个频道，每个频道15个视频的典型场景：

直接解析方案需要555次额外请求
总数据传输量可能超过400MB
页面加载时间将显著延长

技术实现要点

// 示例代码片段 - 混合过滤策略
func isShortVideo(videoURL string) bool {
    // 第一步：检查标题关键词
    if strings.Contains(strings.ToLower(video.Title), "#shorts") {
        return true
    }
    
    // 第二步：HEAD请求验证
    resp, err := http.Head(buildShortsURL(videoID))
    if err == nil && resp.StatusCode == 200 {
        return true
    }
    
    return false
}