使用ytdl-sub实现视频平台内容按关键词精准过滤下载
项目背景
ytdl-sub是一个强大的视频内容下载工具,它提供了丰富的预设配置和过滤功能,可以帮助用户实现自动化、精准化的视频下载管理。本文将详细介绍如何使用ytdl-sub的过滤功能来实现特定关键词组合的视频下载。
需求场景
假设我们需要从一个视频平台频道(如体育新闻频道)下载所有标题中同时包含"maple leafs"和"highlights"这两个关键词的视频。这种需求在体育赛事集锦、特定主题内容收集等场景下非常常见。
配置方案
基础配置
首先,我们需要在config.yml中设置基础的工作目录和预设:
presets:
Jellyfin TV Show by Date Temporary:
preset:
- "Jellyfin TV Show by Date"
- "Only Recent"
overrides:
tv_show_directory: "/video-temp"
only_recent_date_range: "1week"
这个配置做了两件事:
- 继承了Jellyfin TV Show by Date预设,用于组织下载的视频
- 使用Only Recent预设,限制只下载最近一周的视频
关键词过滤配置
在subscriptions.yml中,我们使用Filter Keywords预设来实现关键词过滤:
Jellyfin TV Show by Date Temporary | Filter Keywords:
= Ice Hocky:
"~NHL - Maple Leafs Highlights":
url: "https://www.example.com/@sportsnet"
title_include_eval: "ALL"
title_include_keywords:
- "maple leafs"
- "highlights"
关键点说明:
title_include_eval: "ALL"表示需要同时满足所有关键词条件title_include_keywords列表定义了需要同时出现在标题中的关键词- 波浪线(~)前缀表示这是一个过滤配置
工作原理
当ytdl-sub运行时,它会:
- 获取指定频道的最新视频列表
- 对每个视频标题应用过滤规则
- 只保留标题中同时包含"maple leafs"和"highlights"的视频
- 下载这些符合条件的视频
常见问题解决
-
过滤不生效:确保过滤配置是作为插件(plugin)而非覆盖变量(override)使用,正确的语法是在preset下直接定义filter_include,而不是在overrides中。
-
下载过多视频:检查title_include_eval的值是否为"ALL",这确保所有关键词都必须匹配。如果设置为"ANY",则任一关键词匹配就会被下载。
-
大小写敏感问题:ytdl-sub的过滤默认是大小写敏感的,如果需要不区分大小写,可以使用%lower函数处理标题。
高级技巧
-
排除特定内容:可以结合filter_exclude来排除某些特定内容,比如排除"trade"相关的视频。
-
多条件组合:使用%and、%or等逻辑运算符可以构建更复杂的过滤条件。
-
正则表达式:对于更复杂的匹配需求,可以使用正则表达式进行模式匹配。
总结
通过ytdl-sub的Filter Keywords预设,我们可以轻松实现基于多个关键词组合的视频过滤下载。这种方案不仅适用于体育赛事集锦,也可以应用于各种需要精准内容筛选的场景,如教育视频收集、特定主题内容归档等。合理配置过滤条件可以显著提高下载内容的精准度,减少后期手动筛选的工作量。
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0213
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0137
JoyAI-EchoJoyAI-Echo,这是一个独立的、仅用于推理的版本,旨在实现分钟级多镜头音视频生成。它采用了经过蒸馏的DMD生成器、配对的跨模态记忆以及故事级别的一致性。其性能的核心在于,一个跨模态视听记忆库能够在长达五分钟的视频中保持角色外观和语音音色的一致性。同时,一个训练后处理流程将基于记忆的强化学习与分布匹配蒸馏相结合,实现了7.5倍的速度提升,显著增强了视觉质量和对齐效果。00
GLM-5.2智谱开源 GLM-5.2,这是针对长文本任务的最新旗舰模型。相较于前代产品 GLM-5.1,它在长文本任务处理能力上实现了显著飞跃,并且首次在稳定的 100 万 token 上下文中提供这一能力。Jinja00
SwanLab⚡️SwanLab - an open-source, modern-design AI training tracking and visualization tool. Supports Cloud / Self-hosted use. Integrated with PyTorch / Transformers / LLaMA Factory / veRL/ Swift / Ultralytics / MMEngine / Keras etc.Python00
tiny-universe《大模型白盒子构建指南》:一个全手搓的Tiny-UniverseJupyter Notebook03