Shiki项目中的C++语法高亮性能优化实践

2025-05-20 04:42:30作者：平淮齐Percy

A beautiful yet powerful syntax highlighter

项目地址：https://gitcode.com/gh_mirrors/sh/shiki

背景与问题发现

Shiki作为一款基于TextMate语法的代码高亮工具，在处理C++语言时遇到了显著的性能瓶颈。开发者报告称，在MacBook M1设备上，一个简单的C++代码片段需要约10秒才能完成高亮处理，这显然无法满足实际应用需求。

性能瓶颈分析

经过深入分析，发现性能问题主要集中在两个方面：

正则表达式执行时间过长：两个关键的正则模式function_call和function_definition在执行时消耗了大部分时间
正则表达式构造开销：C++语法中大量使用原子组和占有量词，导致正则表达式构造过程缓慢

关键优化策略

正则表达式模式优化

针对function_call和function_definition这两个性能热点，提出了以下优化方案：

简化否定断言结构：
- 将原本重复的(\Wfoo|^foo|\Wbar|^bar)模式优化为((?:\W|^)(?:foo|bar))
- 这种优化减少了50%的备选分支，显著降低了回溯次数
量词使用优化：
- 调整量词的使用策略，在保证匹配正确性的前提下减少不必要的占有量词
- 例如将>)\s*+)?::)*\s*+优化为>)\s*)?+::)*+\s*
注释匹配优化：
- 使用Oniguruma特有的"absent repeater"特性(?~...)来简化块注释匹配
- 替代原有的复杂模式，提高匹配效率

构造过程优化

延迟编译技术：
- 对于超长正则模式(超过3000字符)采用延迟编译策略
- 仅在首次使用时进行编译，避免不必要的初始化开销
正则表达式缓存：
- 实现正则表达式结果的缓存机制
- 对于重复出现的匹配场景直接使用缓存结果

技术实现细节

Oniguruma语法特性利用

现代Oniguruma对变长后顾断言的支持：
- 新版本Oniguruma放宽了对变长后顾断言中分组使用的限制
- 这使得更高效的模式结构成为可能
特殊语法元素优化：
- 利用\b单词边界替代复杂的(?:\W|^)结构
- 在适当场景使用Oniguruma特有的"absent repeater"特性

正则表达式优化器开发

AST转换优化：
- 开发专门的Oniguruma语法解析器
- 基于AST进行模式转换和优化
常见优化规则：
- 移除不必要的非捕获组
- 合并重复的模式结构
- 简化字符类表达

优化效果

经过上述优化后，C++语法高亮的性能得到显著提升：

正则执行时间：热点正则的执行时间减少50%以上
初始化时间：通过延迟编译技术，初始化时间大幅降低
内存占用：优化后的正则模式体积减小约5%

经验总结

正则表达式设计原则：
- 避免过度使用原子组和占有量词
- 注意嵌套量词可能导致的回溯爆炸
- 优先使用互斥的备选分支
性能优化方法论：
- 识别真正的性能热点
- 理解不同正则引擎的特性差异
- 平衡可读性与性能
工具链建设：
- 开发专用优化工具的必要性
- 自动化优化流程的价值

这些优化经验不仅适用于Shiki项目，对于其他需要处理复杂语法高亮的场景也具有参考价值。通过系统性的分析和针对性的优化，可以显著提升语法高亮工具在处理复杂语言时的性能表现。

A beautiful yet powerful syntax highlighter

项目地址：https://gitcode.com/gh_mirrors/sh/shiki

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

flutter_flutter

Oohos_react_native

React Native鸿蒙化仓库

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统