ANTLR4解析器EOF错误分析与解决方案：Kumir语言案例研究

2025-05-12 01:23:18作者：幸俭卉

ANTLR (ANother Tool for Language Recognition) is a powerful parser generator for reading, processing, executing, or translating structured text or binary files.

项目地址：https://gitcode.com/gh_mirrors/an/antlr4

问题背景

在使用ANTLR4为Kumir语言(一种教学用编程语言)开发解析器时，我们遇到了一个看似矛盾的现象：解析器跟踪日志显示成功完成了语法分析，但错误监听器却报告了NoViableAltException异常。这种情况发生在12个特定的测试文件中，而其他48个文件则能正常解析。

现象描述

当解析包含特定结构的Kumir代码文件时，观察到以下行为：

解析器跟踪(parser.setTrace(True))显示成功进入并退出了起始规则program
在退出program规则时，下一个输入符号是预期的<EOF>
然而，错误监听器仍然报告了一个关于<EOF>的NoViableAltException

深入分析

通过仔细检查语法规则和测试用例，我们发现问题的根源在于语法规则中的歧义性处理。具体来说，Kumir语言中的div和mod操作符既可以作为中缀运算符使用，也可以作为函数调用使用，这种双重身份导致了语法分析时的歧义。

关键语法规则分析

原始语法中存在以下问题规则：

multiplicativeExpression
    : unaryExpression ((MUL | DIV | DIV_OP | MOD_OP) unaryExpression)*
    ;

其中DIV_OP和MOD_OP分别对应div和mod关键字。这种设计使得解析器在面对div(a,b)这样的表达式时无法确定应该将其解析为函数调用还是中缀运算。

解决方案

经过深入分析，我们决定简化语法设计，采用以下改进方案：

词法分析器修改：
- 移除专门的DIV_OP和MOD_OP词法规则
- 将div和mod作为普通标识符处理
语法分析器修改：
- 修改multiplicativeExpression规则，只处理标准的中缀运算符
- 将div和mod的函数调用形式通过常规函数调用规则处理

修改后的关键规则示例：

multiplicativeExpression
    : unaryExpression ((MUL | DIV) unaryExpression)*
    ;

postfixExpression
    : primaryExpression
    | ID LPAREN argumentList? RPAREN
    ;