YouTubeTranscriptAPI项目中的User-Agent头引发的JSON解析问题分析

2025-06-18 01:52:53作者：裴锟轩Denise

youtube-transcript-api

This is a python API which allows you to get the transcript/subtitles for a given YouTube video. It also works for automatically generated subtitles and it does not require an API key nor a headless browser, like other selenium based solutions do!

项目地址：https://gitcode.com/GitHub_Trending/yo/youtube-transcript-api

问题背景

在使用YouTubeTranscriptAPI 1.0.2版本时，开发者发现了一个有趣的异常现象：当在请求头中添加"User-Agent"字段时，会导致JSON解析失败，抛出JSONDecodeError异常；而移除该字段后，功能则恢复正常。

技术细节剖析

这个问题的根源在于YouTubeTranscriptAPI内部处理YouTube页面响应时的JSON解析逻辑。具体来说，问题出现在_transcripts.py文件的第376行，TranscriptListFetcher类的_extract_captions_json()方法中。

原始代码尝试通过以下方式提取JSON数据：

video_data = json.loads(
    splitted_html[1].split("</script>")[0].strip().rstrip(";")
)

当添加"User-Agent"头时，YouTube服务器返回的HTML内容结构发生了变化。原本期望获取的是干净的JSON序列化数据，但实际上返回的内容格式类似于：

... }; var ...

其中"};"标记表示JSON序列化数据的结束，这导致后续的JSON解析失败。

解决方案

经过分析，我们提出了两种可行的解决方案：

方案一：字符串处理法

json_string = splitted_html[1].split("</script>")[0].strip()
video_data = json.loads(
    json_string.split('};var')[0] + '}' if '};var' in json_string else \
    json_string.rstrip(";")
)

这种方法通过检查是否存在"};var"分隔符来智能处理不同格式的响应内容，既兼容了带"User-Agent"头的情况，也保持了原有功能的正常工作。

方案二：正则表达式法

import re
import json

js_content = splitted_html[1].split("</script>")[0].strip()
json_match = re.search(r'(\{.+?\})\s*;\s*var', js_content)

if json_match:
    json_string = json_match.group(1)
    data = json.loads(json_string)

这种方法使用正则表达式更精确地提取JSON部分，提高了代码的健壮性，能够应对更多潜在的格式变化。

问题背后的思考

这个案例揭示了几个值得注意的技术要点：

服务器响应可能因请求头不同而变化：Web服务器经常根据User-Agent等请求头返回不同格式的内容，开发者在设计爬虫或API时需要考虑到这一点。
HTML内容解析的脆弱性：直接基于字符串分割和特定标记的解析方法往往不够健壮，容易受到内容格式变化的影响。
防御性编程的重要性：在处理外部数据时，应该采用更健壮的解析方法，如方案二中的正则表达式，或者考虑使用专门的HTML/JavaScript解析器。

最佳实践建议

对于类似场景，建议开发者：

尽量使用项目官方推荐的请求头配置，避免不必要的修改。
如果确实需要自定义请求头，应该充分测试各种边界情况。
考虑使用更健壮的内容解析方法，如专门的HTML解析库或更完善的正则表达式。
在捕获和处理异常时，提供更详细的错误信息，便于问题诊断。

这个问题的最终解决方案已经在新版本1.0.3中发布，开发者可以直接升级到最新版本来解决这个问题。

youtube-transcript-api

This is a python API which allows you to get the transcript/subtitles for a given YouTube video. It also works for automatically generated subtitles and it does not require an API key nor a headless browser, like other selenium based solutions do!

项目地址：https://gitcode.com/GitHub_Trending/yo/youtube-transcript-api

登录后查看全文

热门内容推荐

最新内容推荐

项目优选

收起

openHiTLS-examples

本仓将为广大高校开发者提供开源实践和创新开发平台，收集和展示openHiTLS示例代码及创新应用，欢迎大家投稿，让全世界看到您的精巧密码实现设计，也让更多人通过您的优秀成果，理解、喜爱上密码技术。

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

ohos_react_native

React Native鸿蒙化仓库

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system

deepin linux kernel

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

harmony-utils 一款功能丰富且极易上手的HarmonyOS工具库，借助众多实用工具类，致力于助力开发者迅速构建鸿蒙应用。其封装的工具涵盖了APP、设备、屏幕、授权、通知、线程间通信、弹框、吐司、生物认证、用户首选项、拍照、相册、扫码、文件、日志，异常捕获、字符、字符串、数字、集合、日期、随机、base64、加密、解密、JSON等一系列的功能和操作，能够满足各种不同的开发需求。

CangjieCommunity

为仓颉编程语言开发者打造活跃、开放、高质量的社区环境