HuggingFace Tokenizers中连字符单词处理的深度解析

2025-05-24 19:22:37作者：齐冠琰

在自然语言处理任务中，分词器对连字符单词的处理方式会直接影响下游任务的性能表现。本文将以HuggingFace Tokenizers库为例，深入分析其对连字符单词的特殊处理机制及其影响。

连字符单词的分词特性

通过实验观察发现，当使用distilbert-base-uncased分词器处理包含连字符的单词时，分词器会将连字符视为独立的分词单元。例如"two-week"会被分解为三个部分："two"、"-"和"week"，每个部分都被赋予独立的word_id。

这种处理方式源于BERT等模型的原始设计。英语中连字符的使用场景复杂多样，可能表示：

复合词（如state-of-the-art）
前缀/后缀（如pre-processing）
数字范围（如pages 10-20）
单词拆分（跨行时的连接符）

对NLP任务的影响

这种分词特性在命名实体识别(NER)等序列标注任务中尤为关键。当实体名称包含连字符时：

实体可能被错误分割
BIO标签序列会被打断
模型需要额外学习连字符的上下文语义

实用解决方案

针对这一问题，可以采用基于字符偏移量的解决方案：

def get_bio_tags(text, spans):
    tokenized_inputs = tokenizer(text, 
                               return_offsets_mapping=True,
                               add_special_tokens=False)
    tokens = tokenizer.convert_ids_to_tokens(tokenized_inputs['input_ids'])
    token_spans = tokenized_inputs['offset_mapping']
    
    bio_tags = ["O"] * len(tokens)
    for start, end, label in spans:
        is_label_started = False
        for i, (token_start, token_end) in enumerate(token_spans):
            if token_start >= start and token_end <= end:
                bio_tags[i] = f"B-{label}" if not is_label_started else f"I-{label}"
                is_label_started = True
    return tokens, bio_tags