Markdig项目解析：深入理解Markdown抽象语法树(AST)

2026-02-04 04:21:39作者：范靓好Udolf

Markdig是一款针对.NET平台设计的高性能Markdown处理器，以其闪电般的解析与渲染速度、轻量级且低GC压力著称。该引擎不仅完美兼容CommonMark标准，还支持丰富的扩展功能，如表格、脚注、任务列表、数学公式等，总计超过20种内置插件，满足各种文档处理需求。开发者可利用其灵活的抽象语法树和精确源码定位，轻松构建高级Markdown编辑器。此外，Markdig拥抱现代.NET生态，兼容.NET Standard 2.0及以上版本，为老旧框架提供了向后兼容选项。无论是在线预览还是深入开发自定义Markdown解析逻辑，Markdig都是强大而高效的选择。参与贡献或体验其在.NET世界中激发的无限可能，让你的文档编写与呈现从未如此优雅和便捷。

项目地址：https://gitcode.com/gh_mirrors/mar/markdig

什么是Markdown抽象语法树

在Markdig解析器中，当调用Markdown.Parse(...)方法成功解析Markdown文本后，会返回一个抽象语法树(AST)结构。这个结构以MarkdownDocument类型对象作为根节点，它继承自更通用的块容器类型，构成了Markdown语义结构的完整表示体系。

AST的核心结构

Markdig的AST由两种基本节点类型构成：

块元素(Block)：代表段落、标题、列表等结构性内容
行内元素(Inline)：代表强调文本、链接、图片等内联内容

它们之间的关系遵循以下规则：

块元素可以包含其他块元素或行内元素
行内元素只能包含其他行内元素
根节点MarkdownDocument是一个特殊的块容器

AST遍历方法

Markdig提供了一组强大的Descendants扩展方法，支持多种遍历方式：

1. 深度优先遍历

var document = Markdown.Parse(markdownText);
foreach (var node in document.Descendants())
{
    // 处理每个节点
    if (node is HeadingBlock heading)
    {
        // 处理标题块
    }
}

2. 类型过滤遍历

// 查找所有列表项
foreach (var item in document.Descendants<ListItemBlock>())
{
    // 处理列表项
}

// 查找所有图片链接
foreach (var img in document.Descendants<LinkInline>().Where(x => x.IsImage))
{
    // 处理图片
}

3. 层级组合查询

// 查找列表项中的强调文本
var emphases = document.Descendants<ListItemBlock>()
                     .SelectMany(block => block.Descendants<EmphasisInline>());

块元素详解

块元素分为两大类：

容器块(ContainerBlock)：可以包含其他块的块元素
叶子块(LeafBlock)：不能包含其他块，但可以包含行内元素

关键属性说明

Parent：指向父容器的引用（根节点为null）
Parser：创建该块的解析器实例
IsOpen：标记块是否仍在解析中
IsBreakable：决定父容器是否可以在此块未关闭时结束

行内元素特点

行内元素分为：

普通行内元素(Inline)：如强调文本、链接等
行内容器(ContainerInline)：可以包含其他行内元素

所有行内元素都有一个ParentBlock属性，指向其所属的叶子块。

源代码位置追踪

当启用.UsePreciseSourceLocation()配置时，AST中的每个节点都会包含其在原始文本中的位置信息：

var pipeline = new MarkdownPipelineBuilder()
               .UsePreciseSourceLocation()
               .Build();
var document = Markdown.Parse(text, pipeline);

// 获取节点在源文本中的位置
var span = someNode.Span;  // 返回SourceSpan结构