Chumsky解析器中Or组合子的错误恢复优先级问题分析

2025-06-16 22:03:02作者：翟江哲Frasier

问题背景

在Chumsky解析器组合库中，or组合子用于实现解析器的备选逻辑。当开发者在构建语言服务器协议(LSP)时，错误恢复能力尤为重要。一个典型场景是解析可能不完整的函数调用表达式，如foo(。

问题现象

开发者设计了如下解析器组合：

function_call_parser()
  .or(var_parser())
  .or(parentheses_parser())

当输入foo(时，function_call_parser能够正确恢复错误并映射到适当值，但最终结果却变成了变量foo与括号()的组合，并显示了来自括号解析器的错误。

原因分析

通过查看Or结构的实现代码，发现问题出在错误处理的优先级逻辑上：

当前实现会检查第一个解析器的结果是否有错误
如果第一个解析器有错误，即使它成功解析了部分内容，也会尝试第二个解析器
当第二个解析器没有产生错误时，会优先选择第二个解析器的结果

这与文档描述"如果两个解析器都成功，保证优先选择第一个解析器的输出"存在不一致性。

技术影响

这种实现方式会导致：

错误恢复启用和禁用时的行为不一致
在部分解析成功的情况下，可能选择了不理想的解析路径
对于需要精确错误恢复的场景(如LSP)会产生不理想的用户体验

解决方案

虽然理想情况是让解析器选择错误最少的路径，但在存在repeated等组合子时实现起来较为复杂。当前建议的改进方向是：

修改or组合子的行为，使其更符合文档描述
更新文档说明，明确表述为"如果两个解析器都产生输出..."
对于使用旧版本的用户，可以自行实现修复方案

最佳实践

对于需要精确错误处理的场景，开发者可以考虑：

升级到最新版Chumsky
对于无法升级的情况，可以自定义or组合子的实现
在关键解析路径上添加额外的错误恢复逻辑
对解析结果进行后处理，修正可能的错误恢复偏差

总结

解析器组合库中的错误恢复机制对开发工具至关重要。Chumsky的or组合子在错误处理优先级上的这一发现，提醒我们在使用解析器组合子时需要深入理解其内部机制，特别是在错误恢复场景下。通过适当的调整和自定义，可以构建出更符合实际需求的解析逻辑。

chumsky

Write expressive, high-performance parsers with ease.

项目地址：https://gitcode.com/gh_mirrors/ch/chumsky

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

178

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

TSX

410

130