nlohmann/json 库处理 Unicode 字符串的严格性分析

2025-05-01 08:26:40作者：何将鹤

在软件开发过程中，JSON 作为数据交换格式被广泛使用，而 Unicode 字符串的处理是 JSON 解析中的一个关键环节。nlohmann/json 作为 C++ 中流行的 JSON 库，其对 Unicode 字符串的处理采用了严格的标准，这在实际应用中可能会引发一些兼容性问题。

问题背景

当开发者尝试使用 nlohmann/json 解析来自 WHATWG URL 测试套件的 urltestdata.json 文件时，遇到了解析错误。错误信息明确指出字符串中的 Unicode 代理对存在问题：高代理项 U+D800 后跟随的不是有效的低代理项 U+D801。

Unicode 标准中，代理对机制用于表示超出基本多语言平面（BMP）的字符。根据 Unicode 15.1 标准：

有效的 UTF-16 编码必须严格遵循高代理项后接低代理项的配对规则。nlohmann/json 库在 lexer.hpp 文件中实现了这一严格检查，确保所有代理对都符合 Unicode 标准。

值得注意的是，许多在线 JSON 验证器能够接受包含无效代理对的 JSON 文件。这种差异源于不同解析器对 Unicode 标准的严格程度不同：

对于开发者而言，这种严格性可能导致以下情况：

解决方案包括：

通过理解 nlohmann/json 的这种严格行为，开发者可以更好地处理 JSON 数据交换中的 Unicode 相关问题，确保应用的健壮性和标准合规性。

登录后查看全文