CommonMark/cmark 项目中的 Unicode 编码问题解析

2025-07-08 11:16:58作者：舒璇辛Bertina

在 CommonMark/cmark 项目中，发现了一个关于 Unicode 编码处理的潜在问题。这个问题涉及到 U+FFFE 和 U+FFFF 这两个特殊 Unicode 字符的编码方式。

问题背景

Unicode 标准定义了两个特殊的非字符代码点：U+FFFE 和 U+FFFF。这些代码点被明确指定为不应出现在 Unicode 文本中，但它们确实存在于 Unicode 标准中。在 UTF-8 编码中，U+FFFF 的正确编码应该是三字节序列 EF BF BF。

问题表现

在 cmark 项目中，当处理这些特殊 Unicode 字符时，出现了编码错误。具体表现为：

当直接输入 U+FFFF 字符时，输出变成了单字节 0xFF，而不是正确的三字节 UTF-8 序列
当通过 HTML 数字字符引用(如 )输入时，同样出现了错误的编码输出

技术分析

这个问题源于 cmark_utf8proc_encode_char 函数的实现。这个函数是从 utf8proc 项目的旧版本中复制过来的，其中包含了对 U+FFFE 和 U+FFFF 的特殊处理逻辑。这种特殊处理导致了这些字符无法被正确地编码为 UTF-8 格式。

在 Unicode 标准中，虽然 U+FFFE 和 U+FFFF 被定义为非字符，但它们仍然有明确的编码方式：

U+FFFE 应编码为 EF BF BE
U+FFFF 应编码为 EF BF BF

影响范围

这个问题主要影响以下场景：

解析包含 U+FFFE 或 U+FFFF 的文本时
处理包含这些字符的 HTML 数字字符引用时
使用某些渲染器输出这些字符时

解决方案

正确的做法应该是按照标准的 UTF-8 编码规则来处理这些字符，而不是添加特殊处理逻辑。对于 U+FFFF 字符，应该输出三字节序列 EF BF BF，而不是单字节 0xFF。

最佳实践建议

在处理 Unicode 编码时，建议：

遵循 Unicode 标准的编码规则，不对特殊字符做例外处理
使用最新版本的 Unicode 处理库，而不是复制旧版本的代码
对于非字符代码点，可以按照标准编码处理，也可以选择拒绝处理并报错，但不应产生错误的编码输出

这个问题提醒我们在处理 Unicode 编码时要格外小心，特别是对于那些特殊用途的代码点，确保我们的实现既符合标准又能正确处理边界情况。

cmark

CommonMark parsing and rendering library and program in C

项目地址：https://gitcode.com/gh_mirrors/cm/cmark

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

393

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.67 K

987

CommonMark/cmark 项目中的 Unicode 编码问题解析

问题背景

问题表现

技术分析

影响范围

解决方案

最佳实践建议

相关内容推荐

项目优选