PostgreSQL语法解析器中PL/SQL规则导致的歧义问题分析
在PostgreSQL语法解析器的开发过程中,我们发现了一个关于列标签(collabel)解析的歧义问题。这个问题源于PostgreSQL语法中混入了PL/SQL规则,导致词法分析器无法正确区分某些关键字。
问题背景
在解析类似SELECT 'trailing' AS first;这样的SQL语句时,词法分析器对first这个标识符的解析存在三种可能的路径:
- 作为普通标识符(identifier)解析,然后匹配PL/SQL非保留关键字(FIRST_P)
- 直接作为PL/SQL非保留关键字(FIRST_P)解析
- 作为PostgreSQL非保留关键字(FIRST_P)解析
这种歧义性会导致解析器无法确定正确的语法树结构,影响后续的语义分析和代码生成。
根本原因分析
通过对原始PostgreSQL的yacc语法文件(gram.y)和ANTLR语法文件的对比分析,我们发现:
-
在原始yacc语法中,关键字分类(col_name_keyword、reserved_keyword等)的符号集合是完全互斥的(disjoint),这是语法解析器正常工作的重要前提。
-
但在ANTLR版本的语法中,PL/SQL非保留关键字(plsql_unreserved_keyword)集合与PostgreSQL原有的关键字集合存在大量重叠,破坏了符号集合的互斥性。
-
这种设计违反了ANTLR解析器对符号分类的基本原则,因为ANTLR要求同一语法规则中的备选路径必须能够通过词法分析明确区分。
解决方案
要解决这个问题,我们需要:
-
完全移除PostgreSQL语法中的PL/SQL规则,因为这些规则本应属于一个独立的语法解析器。
-
为PL/pgSQL创建单独的语法定义文件,参考PostgreSQL源码中的pl_gram.y文件结构。
-
确保PostgreSQL主语法中的关键字分类保持互斥性,与原始yacc语法保持一致。
技术实现细节
在PostgreSQL的原始实现中,词法分析器和语法分析器是严格分离的:
- 词法分析阶段会明确标记每个关键字的类型
- 语法分析阶段根据这些标记进行精确的语法规则匹配
而ANTLR的语法定义方式将词法和语法规则混合在一起,当两个语法(PostgreSQL和PL/SQL)合并时,它们的词法规则也会被合并,导致关键字分类混乱。
最佳实践建议
对于类似需要合并多个相关语法的场景,建议:
- 保持每个语法解析器的独立性,不要简单合并词法规则
- 对于嵌入式语言(如PL/SQL嵌入在PostgreSQL中),应该实现为独立的解析阶段
- 在语法设计时严格验证符号集合的互斥性
- 为每个语法定义明确的起始规则和终止标记(如EOF)
通过这种方式,可以避免类似的语法歧义问题,同时保持各个语法解析器的清晰边界和正确性。
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust074- DDeepSeek-V4-ProDeepSeek-V4-Pro(总参数 1.6 万亿,激活 49B)面向复杂推理和高级编程任务,在代码竞赛、数学推理、Agent 工作流等场景表现优异,性能接近国际前沿闭源模型。Python00
MiniMax-M2.7MiniMax-M2.7 是我们首个深度参与自身进化过程的模型。M2.7 具备构建复杂智能体应用框架的能力,能够借助智能体团队、复杂技能以及动态工具搜索,完成高度精细的生产力任务。Python00
GLM-5.1GLM-5.1是智谱迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。Jinja00
Kimi-K2.6Kimi K2.6 是一款开源的原生多模态智能体模型,在长程编码、编码驱动设计、主动自主执行以及群体任务编排等实用能力方面实现了显著提升。Python00
Hy3-previewHy3 preview 是由腾讯混元团队研发的2950亿参数混合专家(Mixture-of-Experts, MoE)模型,包含210亿激活参数和38亿MTP层参数。Hy3 preview是在我们重构的基础设施上训练的首款模型,也是目前发布的性能最强的模型。该模型在复杂推理、指令遵循、上下文学习、代码生成及智能体任务等方面均实现了显著提升。Python00