gallery-dl项目：如何基于现有文件构建SQLite数据库实现自动跳过已下载文件

2025-05-17 13:56:13作者：尤辰城Agatha

在数据抓取和下载过程中，经常会遇到需要处理大量文件的情况。对于使用gallery-dl这样的下载工具的用户来说，如何高效管理已下载文件并避免重复下载是一个常见需求。本文将详细介绍如何基于现有文件构建SQLite数据库，使gallery-dl能够自动识别并跳过已下载的文件。

背景与需求分析

许多用户在使用gallery-dl下载内容时，初期可能没有启用存档功能，导致后续下载无法自动跳过已存在的文件。特别是当下载大量Twitter内容时，完整的元数据文件体积庞大，不便于携带。此时，基于现有文件构建SQLite数据库就成为一个实用的解决方案。

技术实现方案

文件名格式设计

要实现有效的文件去重，首先需要确保文件名具有唯一性。在Twitter内容下载场景中，可以采用以下格式：

{author[name]}-{tweet_id}-{date:Olocal/%Y%m%d-%H%M%S}-img{num}.{extension}

这种格式结合了作者名、推文ID、精确到秒的时间戳和图片序号，确保了每个文件的唯一性。

文件统计脚本

第一步是统计所有已下载文件的文件名。可以使用以下Python脚本遍历目标文件夹并生成文件名列表：

import os
import sys

def main():
    if len(sys.argv) != 2:
        print("请指定目标文件夹路径")
        sys.exit(1)
    
    target_dir = sys.argv[1]
    
    if not os.path.isdir(target_dir):
        print(f"错误：'{target_dir}'不是有效文件夹")
        sys.exit(1)

    json_files = []
    other_files = []

    for root, dirs, files in os.walk(target_dir):
        for filename in files:
            if filename.lower().endswith('.json'):
                json_files.append(filename)
            else:
                other_files.append(filename)

    with open('twitter-metadata.txt', 'w') as f:
        f.write('\n'.join(json_files))
    
    with open('twitter.txt', 'w') as f:
        f.write('\n'.join(other_files))

    print(f"完成！统计到{len(json_files)}个JSON文件和{len(other_files)}个其他文件")

if __name__ == '__main__':
    main()

该脚本会将JSON文件和其他文件分别保存到不同的文本文件中，便于后续处理。

数据库构建脚本

接下来，需要将文件名列表转换为gallery-dl可识别的SQLite数据库格式。关键点在于gallery-dl的数据库文件中每个条目都以网站名称为前缀（如"twitter"）：

import sqlite3
import os

def create_database(txt_path, db_path):
    if os.path.exists(db_path):
        os.remove(db_path)
    
    conn = sqlite3.connect(db_path, timeout=60, check_same_thread=False)
    conn.isolation_level = None
    cursor = conn.cursor()
    
    cursor.execute('''CREATE TABLE archive (
                        entry PRIMARY KEY
                     ) WITHOUT ROWID''')
    
    cursor.execute("BEGIN TRANSACTION")
    
    try:
        with open(txt_path, 'r') as f:
            for line in f:
                original = line.strip()
                if original:
                    prefixed_name = f"twitter{original}"
                    cursor.execute(
                        "INSERT OR IGNORE INTO archive VALUES (?)",
                        (prefixed_name,)
                    )
        cursor.execute("COMMIT")
    except:
        cursor.execute("ROLLBACK")
        raise
    finally:
        conn.close()
    
    return cursor.rowcount

def main():
    file_pairs = [
        ("twitter-metadata.txt", "twitter-metadata.sqlite3"),
        ("twitter.txt", "twitter.sqlite3")
    ]

    for txt_file, db_file in file_pairs:
        if not os.path.exists(txt_file):
            print(f"错误：找不到文件{txt_file}")
            continue
        
        record_count = create_database(txt_file, db_file)
        print(f"已创建数据库{db_file}，包含{record_count}条记录")

if __name__ == "__main__":
    main()