Chumsky解析器库中的自定义Span类型使用指南

2025-06-16 10:47:51作者：薛曦旖Francesca

概述

Chumsky是一个功能强大的解析器组合库，在1.0.0版本中进行了重大重构，提供了更灵活的输入处理能力。本文将详细介绍如何在Chumsky中使用自定义Span类型，以及新版库中处理输入的各种方法。

自定义Span类型的演变

在Chumsky的早期版本(0.9.x)中，使用自定义Span类型相对简单直接。然而在1.0.0版本中，库的设计变得更加通用和灵活，这导致了一些使用模式的变化。

新版输入处理机制

Chumsky 1.0.0提供了多种处理输入的方式：

直接使用切片：现在可以直接使用&[T]作为输入类型，其中T是你的自定义Token类型。这种方式简单直接，适用于不需要复杂Span信息的场景。
SpannedInput包装器：对于需要自定义Span类型的场景，可以使用SpannedInput<&[(Token, Span)]>这样的结构，其中Span可以是任何你定义的类型。
map_span方法：如果已有输入类型但需要转换Span表示，可以使用Input trait提供的map_span方法来转换Span类型。

实际应用示例

假设我们有一个自定义Token枚举和一个自定义Span结构体：

#[derive(Clone, Debug, PartialEq)]
enum MyToken {
    Number(i64),
    Plus,
    Minus,
}

struct MySpan {
    start: usize,
    end: usize,
    source_id: u32,
}

我们可以这样构建解析器输入：

let tokens = vec![
    (MyToken::Number(42), MySpan { start: 0, end: 2, source_id: 1 }),
    (MyToken::Plus, MySpan { start: 3, end: 4, source_id: 1 }),
];

// 方法1：直接使用切片
let input = &tokens[..];

// 方法2：使用SpannedInput
let input = SpannedInput::from(&tokens[..]);