Chumsky解析器中处理未闭合分隔符错误的技术实践

2025-06-16 22:31:19作者：何将鹤

在编译器开发过程中，处理语法错误是至关重要的一环。本文将以Chumsky解析器库为例，深入探讨如何优雅地处理未闭合分隔符（如大括号、方括号等）的错误报告问题，特别是在0.9.3版本到0.10.1版本迁移过程中遇到的挑战与解决方案。

问题背景

在编译器前端开发中，良好的错误报告能极大提升开发体验。对于未闭合的分隔符，理想的错误报告应包含：

未闭合分隔符的位置
预期的闭合分隔符类型
在源代码中的具体位置标记

在Chumsky 0.9.3版本中，开发者可以通过自定义错误和map_err_with_span方法实现这一功能。例如，对于未闭合的方括号，可以生成包含起始位置和错误位置的详细错误信息。

0.9.3版本的实现方式

在旧版本中，典型的实现模式包含两个关键步骤：

捕获闭合分隔符缺失错误：使用map_err捕获解析闭合分隔符失败的情况
修正错误位置信息：通过map_err_with_span修正错误位置，使其包含从开始分隔符到错误位置的范围

这种实现对于块注释同样有效，即使它们被padded_by跳过。核心在于使用then_ignore(end())确保解析器必须消费整个输入，从而触发未闭合分隔符的错误。

0.10.1版本的挑战与解决方案

升级到0.10.1版本后，原有的错误处理机制不再有效。解析器会回退到更通用的错误报告，仅显示"expected...found"形式的简单错误。这是由于新版本在错误处理策略上的变化：

贪婪性解析行为变化：新版本不再自动选择消费最多输入的错误
错误合并策略调整：错误优先级处理更加依赖Error.merge方法

解决方案包括：

自定义错误合并逻辑：重写Error.merge方法，优先处理位于输入末尾的未闭合分隔符错误
调整解析器顺序：将可能产生未闭合错误的解析器放在choice的最后
使用custom解析器：对于特殊情况（如注释），可以手动实现输入结束检查

技术实现细节

对于块注释的处理，可以这样实现：

let consume_comment_close_fail_on_eoi = custom(
    |inp: &mut InputRef<'src, '_, &'src str, Err<LexingError>>| {
        let before = inp.save();
        match inp.next() {
            None => Err({
                let span = Span((inp.span_since(&inp.cursor()) as SimpleSpan).into_range());
                LexingError::unclosed(
                    LexingErrorReason::UnclosedBlockComment { span: span.clone() },
                    None,
                    span,
                )
            }),
            // ...其他匹配情况
        }
    },
);