DOMPurify中处理用户输入HTML实体的最佳实践

2025-05-15 01:30:16作者：韦蓉瑛

DOMPurify - a DOM-only, super-fast, uber-tolerant XSS sanitizer for HTML, MathML and SVG. DOMPurify works with a secure default, but offers a lot of configurability and hooks. Demo:

项目地址：https://gitcode.com/gh_mirrors/do/DOMPurify

理解问题场景

在现代Web开发中，我们经常需要处理用户输入的文本内容，特别是当这些内容需要与预定义的HTML标记混合使用时。一个典型场景是在Vue应用中，开发者希望将用户提供的字符串与自定义的标签结合使用，同时需要确保用户输入中的HTML标记不被浏览器解析，而是作为纯文本显示。

DOMPurify的默认行为分析

DOMPurify作为一个专注于HTML净化的库，其默认行为是移除不被允许的HTML标签，而不是转义它们。例如：

DOMPurify.sanitize('This <b>is</b> a ') // 输出: "This <b>is</b> a "
DOMPurify.sanitize('This <b>is</b> a ', { ALLOWED_TAGS: [] }) // 输出: "This is a "

这种设计符合其作为净化工具的核心定位，即确保输出的HTML是安全的，而不是对原始内容进行编码。

转义而非移除的需求

在某些情况下，开发者需要保留用户输入中的所有特殊字符，包括HTML标记，但以转义形式显示。例如，希望将is显示为is，而不是移除标签或保留其作为HTML的功能。

解决方案探讨

虽然DOMPurify本身不提供HTML实体编码功能，但开发者可以通过以下方式实现需求：

使用专门的HTML实体编码库：如he库，这是一个专门处理HTML实体编码/解码的成熟解决方案。
自定义DOMPurify钩子：通过DOMPurify的钩子机制，可以在净化过程中对特定内容进行转义处理。

实现示例

// 使用he库进行HTML实体编码
import he from 'he';

const userInput = 'This <b>is</b> a ';
const encodedInput = he.encode(userInput); // 转义所有HTML特殊字符
const finalOutput = encodedInput + '<mark>test</mark>';

// 最终输出: "This &lt;b&gt;is&lt;/b&gt; a <mark>test</mark>"