fake-useragent项目中的用户代理数据重复问题分析与解决方案

2025-06-17 14:04:10作者：蔡丛锟

问题背景

fake-useragent是一个流行的Python库，用于生成随机且真实的用户代理(User-Agent)字符串。在项目使用过程中，开发者发现了一个严重问题：当随机选择大量用户代理时，实际获得的唯一用户代理数量非常有限，仅有79个左右，远低于预期。

问题分析

通过深入调查，开发团队发现了几个关键问题点：

数据源问题：项目依赖的browsers.json文件中存在大量重复的用户代理字符串，这直接影响了随机选择的多样性。
数据获取限制：主要数据来源网站user-agents.net对API调用有严格的速率限制（每天仅允许2次请求），这使得更新和维护用户代理数据库变得异常困难。
数据处理效率：在尝试转换和解析新的用户代理数据时，使用ua_parser包进行字符串解析的效率低下，处理4.9MB数据需要约2.5小时。

解决方案

开发团队经过多次讨论和尝试，最终确定了以下解决方案：

数据源切换：从user-agents.net切换到intoli提供的用户代理数据集，后者采用2-Clause BSD许可证，数据更新更频繁且质量更高。
数据格式优化：
- 将JSON格式转换为JSONlines格式，提高处理效率
- 添加更多元数据字段，如设备品牌、浏览器版本、操作系统版本等
- 实现数据去重处理
性能优化：尽管ua_parser包解析效率不高，但团队决定保留其完整功能，因为它能提供详细的用户代理分析结果。
版本管理：由于数据结构和API的调整，项目发布了2.0.0版本，确保向后兼容性。

技术实现细节

在具体实现过程中，团队开发了一个数据转换脚本，主要功能包括：

从intoli下载压缩的JSON格式用户代理数据
解压并转换为JSONlines格式
使用ua_parser解析每个用户代理字符串，提取详细信息
添加自定义字段和元数据
输出优化后的数据文件

转换后的数据结构示例：

{
  "useragent": "Mozilla/5.0 (Linux; Android 10; K) AppleWebKit/537.36...",
  "percent": 0.051441313637680605,
  "type": "mobile",
  "device_brand": "Generic_Android",
  "browser": "Chrome Mobile",
  "browser_version": "131.0.0.0",
  "os": "Android",
  "os_version": "10"
}