ANTLR4 C++运行时性能优化：减少ATNConfig内存分配

2025-05-12 02:36:51作者：羿妍玫Ivan

ANTLR (ANother Tool for Language Recognition) is a powerful parser generator for reading, processing, executing, or translating structured text or binary files.

项目地址：https://gitcode.com/gh_mirrors/an/antlr4

在开发基于ANTLR4的VBA方言解释器时，我们发现当处理大型脚本文件（约10000行代码）时，解析阶段需要超过10秒的时间，而解释阶段由于已经进行了许多优化（如避免使用ParseTree接口）反而耗时很少。通过性能分析，我们发现ANTLR4 C++运行时在处理这类大型文件时会创建约5000万个ATNConfig实例，导致大量内存分配操作。

问题分析

在C++中，频繁的内存分配会严重影响性能。通过添加全局计数器跟踪ATNConfig实例的创建和销毁，我们发现同时存在的ATNConfig实例峰值约为70万个，这意味着绝大多数ATNConfig实例都是短暂使用后被立即销毁的。

这种大量短生命周期对象的创建和销毁导致了以下问题：

频繁的内存分配和释放操作消耗了大量CPU时间
内存碎片化问题可能加剧
缓存局部性差，影响CPU缓存效率

技术背景

ATNConfig是ANTLR4解析过程中的核心数据结构，用于表示解析器在ATN（Augmented Transition Network）中的配置状态。在解析歧义语法时，ANTLR4需要尝试多种可能的解析路径，这会导致大量ATNConfig实例的创建。

VBA语言中存在一些固有歧义，特别是函数调用可以不使用括号的特性，例如：

doubleIt 3 + 4

这个表达式既可以解释为doubleIt(3) + 4，也可以解释为doubleIt(3 + 4)。ANTLR4需要通过尝试多种解析路径来解决这类歧义。

优化方案

我们提出了一个基于对象池的优化方案：

std::list<ATNConfig> atnConfigs;
std::vector<ATNConfig*> freeAtnConfigs;

void release(ATNConfig& atnConfig) {
    atnConfig.clear(); // 调用清理方法
    freeAtnConfigs.push_back(&atnConfig);
}

ATNConfig& get(...) {
    ATNConfig* atnConfig;
    if (freeAtnConfigs.empty()) {
        atnConfigs.emplace_back(ATNConfig());
        atnConfig = &atnConfigs.back();
    } else {
        atnConfig = freeAtnConfigs.back();
        freeAtnConfigs.pop_back();
    }
    atnConfig->init(...);
    return *atnConfig;
}