gallery-dl项目实现文件名标签过滤的高级配置技巧

2025-05-17 12:55:16作者：尤辰城Agatha

在图像下载工具gallery-dl的实际使用中，用户经常需要对下载文件的命名格式进行精细控制。本文介绍如何通过自定义Python脚本实现文件名中特定标签的过滤功能，让文件命名更加符合个性化需求。

需求背景

许多用户在使用gallery-dl从Danbooru等图站下载图片时，会遇到文件名包含过多或不必要标签的问题。例如，一个包含"1male, armor, knight, sword"等标签的图片，用户可能只想在文件名中保留"knight, sword"等核心标签。

解决方案概述

gallery-dl虽然不直接支持标签过滤功能，但通过其强大的后处理(postprocessor)机制，我们可以编写Python脚本实现这一需求。解决方案主要包含两个部分：配置文件(config.json)和自定义Python脚本。

详细实现步骤

1. 基础配置文件设置

首先需要在config.json中配置基本的文件名格式和后处理器：

{
    "extractor": {
        "danbooru": {
            "filename": "{tag_string_artist[b:50]}_{tag_string_character[b:50]}_{tag_string_general[b:100]}_{id}.{extension}",
            "postprocessors": {
                "name": "python",
                "event": "prepare",
                "function": "/path/to/custom_script.py:blacklist_tags"
            }
        }
    }
}

2. 编写自定义过滤脚本

创建Python脚本(如gdl_booru.py)，实现标签过滤逻辑：

# 定义需要过滤的标签黑名单
BLACKLIST = {
    "1male",
    "1girl",
    "2girls",
}

def blacklist_tags(metadata):
    # 处理三种类型的标签：artist、character和general
    for key in ("tags_artist", "tags_character", "tags_general"):
        tags = metadata.get(key)
        if not tags:
            continue

        # 将处理后的标签重新存入metadata
        name = key.replace("tags_", "tag_string_", 1)
        metadata[name] = " ".join(
            tag for tag in tags if tag not in BLACKLIST
        )

技术原理分析

后处理机制：gallery-dl在准备下载时会触发"prepare"事件，此时我们的自定义函数可以修改元数据。
标签处理流程：
- 从原始metadata中提取三种标签(tags_artist/tags_character/tags_general)
- 过滤掉黑名单中的标签
- 将处理后的结果存入对应的tag_string_*字段
文件名格式化：最终文件名使用处理后的tag_string_*字段，而非原始tags_*字段。