Wallabag项目解析：Mediapart文章抓取问题的技术解决方案

2025-05-21 20:49:22作者：蔡丛锟

问题背景

Wallabag作为一款优秀的自托管文章保存工具，近期在处理法国知名新闻网站Mediapart的内容时遇到了抓取异常。多位用户反馈无法正常获取文章内容，即使对于公开可见的摘要部分也出现解析失败的情况。

经过深入排查，发现该问题主要由以下几个技术因素导致：

网站结构变更：Mediapart近期对其页面DOM结构进行了调整，原有的XPath选择器//main[@class="global-wrapper"]已无法匹配当前页面布局。
预处理机制干扰：Wallabag的HTML预处理阶段会移除span标签但保留其内容，这导致Mediapart特有的首字母放大效果（通过span实现）出现文字重复问题。
认证流程变更：Mediapart改进了其登录验证机制，旧的认证处理方式已不再适用。

针对上述问题，我们实施了多层次的修复方案：

将原有的特定class选择器更新为更通用的主内容区定位方式：

//main[1]

这种选择方式不再依赖易变的class名称，提高了配置的稳定性。

新增了以下净化规则以优化阅读体验：

strip: //button
strip: //aside
strip: //*[contains(@class, 'google-dfp-ad-wrapper')]

更新了认证处理逻辑，确保：

经过上述调整后：

目前仍存在一个技术限制：由于Wallabag核心预处理机制会强制移除span标签，导致Mediapart的首字母放大效果会显示为重复文字。这需要Wallabag未来版本提供更精细的HTML处理控制才能彻底解决。

对于Wallabag用户处理类似付费墙网站，建议：

本次Mediapart适配案例展示了Wallabag灵活的可配置性，也体现了现代网页动态变化带来的维护挑战。通过合理的XPath策略和持续的配置更新，Wallabag能够有效应对大多数内容抓取需求。

登录后查看全文