Shiki语法高亮引擎中的内联代码语言支持探讨

2025-05-20 04:42:43作者：俞予舒Fleming

在代码高亮领域，Shiki作为一款基于TextMate语法的现代化高亮引擎，其核心设计主要面向完整的代码文件高亮处理。但在实际开发场景中，开发者经常会遇到混合语言代码的特殊需求，特别是在现代Web开发中常见的前端代码内嵌着色器语言的情况。

内联代码高亮的典型场景

一个典型的应用场景是在TypeScript文件中内嵌WGSL/GLSL等着色器代码。例如：

const wgslCode = /* wgsl */ `
    @group(0) @binding(0) var<storage> buffer: array<f32>;
    @vertex fn main() -> @builtin(position) vec4<f32> {
        return vec4<f32>(0.0, 0.0, 0.0, 1.0);
    }
`;

这类代码在VSCode等编辑器中可以通过特定插件实现语法高亮，但在使用Shiki进行高亮渲染时却会遇到挑战，因为Shiki默认会将整个代码块作为单一语言处理。

技术实现难点分析

实现内联代码高亮主要面临两个技术难点：

语言边界识别：需要准确识别代码中不同语言片段的边界位置，这通常依赖于特定的标记注释（如/* wgsl */）。
分层高亮处理：需要对同一代码块中的不同语言区域分别应用对应的高亮规则，并将结果无缝合并。

可能的解决方案方向

语法注入方案

借鉴TextMate语法注入机制，可以通过定义特定规则来识别注释标记后的代码区域，并为其附加对应语言的作用域。这种方式需要：

定义精确的语法注入规则
处理语言作用域的嵌套关系
确保注入规则不影响主语言的语法高亮

自定义转换器方案

另一种思路是开发自定义转换器，其工作流程为：

首先识别出代码中的多语言区域
对每个区域单独调用Shiki进行高亮处理
将各区域的高亮结果合并为最终输出

这种方案虽然灵活，但实现复杂度较高，需要处理以下问题：

不同语言高亮结果的样式协调
代码位置的精确映射
性能优化（避免重复解析）

工程实践建议

对于需要此功能的项目，可以考虑以下实现路径：

预处理阶段：使用AST分析工具识别代码中的多语言区域
分段处理：将代码拆分为多个单语言片段
合并渲染：单独高亮后重新组合，注意保持行号一致性
缓存优化：对频繁出现的语言组合进行缓存

虽然Shiki核心暂不计划内置此功能，但通过合理的架构设计，开发者仍可在应用层实现这一需求，为混合语言代码提供良好的高亮支持。

shiki

A beautiful yet powerful syntax highlighter

项目地址：https://gitcode.com/gh_mirrors/sh/shiki

登录后查看全文