Wenet项目中CharTokenizer处理非语言符号时的空格分割问题分析

2025-06-13 18:21:34作者：董宙帆

问题背景

在语音识别和自然语言处理领域，wenet作为一个开源项目提供了完整的端到端语音识别解决方案。其中，文本分词器(CharTokenizer)是处理文本输入的重要组件。近期在使用wenet的CharTokenizer时，发现了一个关于非语言符号(non_lang_syms)处理的边界情况问题。

当CharTokenizer配置了split_with_space=True参数来处理包含非语言符号的文本时，会出现意外的空字符输出。具体表现为：

输入文本："你好问问 <NIHAO_WENWEN>"（字符间用空格分隔，<NIHAO_WENWEN>是非语言符号）

期望输出：['你', '好', '问', '问', '<NIHAO_WENWEN>']

实际输出：['你', '好', '问', '问', '', '<NIHAO_WENWEN>']（包含一个意外的空字符）

这个问题源于CharTokenizer在处理非语言符号时的逻辑缺陷。当split_with_space=True时，分词器会先将文本按空格分割，然后对每个部分进行处理。对于非语言符号部分，当前实现没有正确处理分割后可能产生的空字符串。

在char_tokenizer.py的第42行，当前代码使用parts = [w for w in parts if len(w.strip()) > 0]来过滤空字符串，但没有对保留的字符串执行strip()操作。这导致当非语言符号前后有空格时，会保留这些空格而不是完全去除。

建议修改为parts = [w.strip() for w in parts if len(w.strip()) > 0]，这样不仅会过滤空字符串，还会去除保留字符串的前后空格。这种修改可以解决当前问题，但需要注意：

经过测试，这个修改在split_with_space=True时解决了空字符问题。但在split_withspace=False时，CharTokenizer仍然无法正确处理英文文本，这是设计上的限制而非bug。

这个问题虽然看起来是一个小边界情况，但在实际语音识别应用中可能会影响模型对特殊符号的处理，特别是在处理包含代码、特殊标记或混合语言的文本时。

登录后查看全文