YouTubeTranscriptApi多线程获取字幕的最佳实践

2025-06-18 07:31:15作者：廉彬冶Miranda

This is a python API which allows you to get the transcript/subtitles for a given YouTube video. It also works for automatically generated subtitles and it does not require an API key nor a headless browser, like other selenium based solutions do!

项目地址：https://gitcode.com/GitHub_Trending/yo/youtube-transcript-api

在使用Python的youtube-transcript-api库进行视频字幕抓取时，开发者经常会考虑使用多线程来提高效率。然而，在多线程环境下直接使用YouTubeTranscriptApi可能会遇到意想不到的问题。本文将深入分析问题原因并提供解决方案。

问题现象

当开发者尝试使用concurrent.futures.ThreadPoolExecutor并发获取多个YouTube视频的字幕时，可能会遇到"Could not retrieve a transcript"的错误提示。有趣的是，同样的代码在单线程环境下却能正常工作，仅会返回预期的年龄限制错误。

根本原因

经过分析，这个问题源于YouTubeTranscriptApi内部使用的requests.Session对象。虽然requests库的Session设计初衷是为了在多个请求间共享cookie等会话信息，但官方文档并未明确说明其线程安全性。实际上，Session对象在多线程环境下并不安全。

YouTubeTranscriptApi在初始化时会创建一个Session实例用于所有后续请求。当多个线程同时使用同一个YouTubeTranscriptApi实例时，Session对象的状态可能会被并发修改，导致请求失败或返回意外结果。

解决方案

正确的做法是为每个线程创建独立的YouTubeTranscriptApi实例。这样可以确保每个线程使用独立的Session对象，避免并发访问导致的问题。以下是改进后的代码示例：

def retrieve_transcription(row):
    # 每个线程创建独立的YouTubeTranscriptApi实例
    ytt = YouTubeTranscriptApi()
    vid_id = row['video_id']
    
    try:
        fetched_transcript = ytt.fetch(vid_id)
        transcript_super_string = ' '.join(snippet.text for snippet in fetched_transcript)
        return {'video_id': vid_id, "transcript": transcript_super_string}
    
    except TranscriptsDisabled:
        return f"Transcripts are disabled for video: {vid_id}"
    except NoTranscriptFound:
        return f"No transcripts found for video: {vid_id}"
    except Exception as e:
        return f"An error occurred retrieving transcript for {vid_id}: {e}"

with concurrent.futures.ThreadPoolExecutor(max_workers) as executor:
    future_to_script = {executor.submit(retrieve_transcription, row): row['video_id'] 
                       for _, row in df.iterrows()}
    
    for future in tqdm(concurrent.futures.as_completed(future_to_script), 
                      desc='Extracting transcripts', total=len(df.index)):
        result = future.result()
        results.append(result)