LaTeX3中char_generate:nn函数对文本输入层级的影响分析

2025-07-05 03:00:04作者：温玫谨Lighthearted

问题背景

在LaTeX3的开发和使用过程中，\char_generate:nn函数的行为特性引起了开发者的关注。这个函数用于动态生成具有指定字符代码和类别代码的字符标记(token)，但在某些情况下会表现出与预期不同的行为。

现象描述

当使用\char_generate:nn函数在递归宏定义中生成字符时，在LuaLaTeX引擎下会出现"text input levels"耗尽的问题，而在PDFLaTeX和XeLaTeX中则表现为输入栈大小耗尽。具体表现为：

\def\f{\expandafter \expandafter \expandafter\f \char_generate:nn{32}{12} }
\f

在LuaLaTeX中会报错："TeX capacity exceeded, sorry [text input levels=15]"，而在PDFLaTeX/XeLaTeX中则是"[input stack size=10000]"错误。

技术分析

底层机制

\char_generate:nn函数的核心是通过\tex_Ucharcat:D原语实现的。在LuaTeX引擎中，这个原语是通过Lua代码模拟实现的。当前的实现会根据字符的类别代码选择不同的处理方式：

对于类别代码10(空格)的字符，使用sprint()函数
对于其他类别代码的字符，使用cprint()函数

这种选择性处理原本是为了优化性能，但在递归场景下会导致文本输入层级不断增加而无法正确释放。

性能与稳定性的权衡

测试表明，如果修改实现方式，始终使用put_next配合token_create来生成字符标记，可以避免文本输入层级的问题。但这种修改可能会带来约20%的性能下降。这是一个典型的性能与稳定性之间的权衡问题。

解决方案探讨

临时解决方案

目前可以通过修改\__char_generate_aux:nnw的内部实现，增加额外的展开步骤来"跳过"生成的字符标记，从而避免输入层级问题：

\patchcmd\__char_generate_aux:nnw {
    \exp_after:wN \exp_end: \tex_Ucharcat:D #1 \exp_stop_f: #2 \exp_stop_f:
} {
    \exp_after:wN
        \exp_after:wN
    \exp_after:wN
        \exp_end:
    \exp_after:wN
        \exp_after:wN
    \tex_Ucharcat:D #1 \exp_stop_f: #2 \exp_stop_f:
        \empty
}