Bleach库HTML清理中的未闭合尖括号处理问题分析

2025-06-29 13:15:49作者：殷蕙予

问题背景

Bleach是一个用于清理HTML内容的Python库，它能够有效地过滤和净化用户输入的HTML代码，防止XSS攻击等安全问题。在处理HTML标记时，Bleach需要正确解析各种标记结构，包括处理不完整的HTML片段。

问题现象

在最新版本的Bleach中，开发者发现当处理包含未闭合尖括号的文本时，会出现一些意外的清理行为。具体表现为：

当文本以"<"开头且后面跟随重复单词时，整个内容会被错误地清理为空字符串
当文本以"<"开头且以空格结尾时，同样会被错误地清理为空字符串
其他类似情况下，Bleach可能会部分截断内容

技术分析

经过深入分析，这些问题源于Bleach底层HTML解析器的错误处理机制。当解析器遇到以下情况时会产生特定的解析错误：

重复属性错误：当文本中出现重复单词时，解析器会误认为这是HTML标签中的重复属性，从而触发"duplicate-attribute"错误
属性名结束错误：同时会伴随"eof-in-attribute-name"错误，表示在属性名中间遇到了文件结束
标签结束错误：当文本以空格结尾时，会触发"expected-end-of-tag-but-got-eof"错误，表示解析器期望标签结束但遇到了文件结束

这些解析错误导致Bleach的清理逻辑进入错误处理路径，最终返回了不符合预期的结果。

解决方案

针对这些问题，Bleach开发团队需要从以下几个方面进行修复：

增强解析错误处理：需要特别处理"expected-end-of-tag-but-got-eof"这类解析错误，将其视为普通文本而非HTML标签
优化重复词判断：改进解析逻辑，避免将文本中的重复单词误判为HTML属性
完善边界条件测试：增加更多边界条件的测试用例，确保各种不完整HTML片段的正确处理

技术影响

这类问题对于Web安全有重要影响，因为：

错误的内容清理可能导致用户输入被意外截断，影响功能正常使用
过于严格的清理可能破坏合法的文本内容
不一致的清理行为可能被攻击者利用，绕过安全防护

最佳实践建议

对于开发者使用Bleach库时，建议：

在升级版本时充分测试边界情况
对于用户输入中的重要内容，考虑添加备份验证机制
关注Bleach项目的更新，及时应用相关修复

通过这些问题分析，我们可以看到HTML清理库在处理不完整标记时的复杂性，也体现了Bleach项目在持续改进中对安全性和可用性的平衡考虑。

bleach

Bleach is an allowed-list-based HTML sanitizing library that escapes or strips markup and attributes

项目地址：https://gitcode.com/gh_mirrors/bl/bleach

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

TSX

986

248