Tiptap项目中嵌套字体样式解析问题的分析与解决方案

2025-05-05 04:00:29作者：韦蓉瑛

在富文本编辑器开发中，HTML到编辑器内容的正确解析是一个关键环节。Tiptap作为基于ProseMirror的现代编辑器框架，在处理嵌套字体样式时存在一个值得注意的解析问题。

问题现象

当处理包含嵌套字体样式的HTML内容时，Tiptap的解析器未能正确清除父级标记。具体表现为：当父元素设置了粗体样式(font-weight:700)，而子元素明确指定了非粗体样式(font-weight:400)时，编辑器错误地保留了父级的粗体效果。

例如以下HTML结构：

<p style="font-weight: 700;">
  <span style="font-weight: 700;">粗体文本</span>
  <span style="font-weight: 400;">非粗体文本</span>
</p>

理想情况下，解析结果应为：

doc(paragraph(strong("粗体文本"), "非粗体文本"))

但实际得到的是：

doc(paragraph(bold("粗体文本 非粗体文本")))

技术背景

这个问题源于Tiptap的标记解析机制。在ProseMirror生态中，标记(Mark)用于表示文本的样式属性，如粗体、斜体等。解析HTML时，系统需要正确处理样式继承和显式覆盖的情况。

ProseMirror原生包prosemirror-schema-basic已经实现了正确的标记清除逻辑，但Tiptap的StarterKit中的Bold扩展没有完全继承这一行为。

解决方案

通过扩展Bold扩展的parseHTML方法，可以显式添加清除标记的逻辑：

Bold.extend({
  parseHTML() {
    return [
      {
        tag: "strong",
      },
      {
        tag: "b",
        getAttrs: (node) => node.style.fontWeight != "normal" && null,
      },
      {
        style: "font-weight=400",
        clearMark: (mark) => mark.type.name === this.name,
      },
      {
        style: "font-weight",
        getAttrs: (value) => /^(bold(er)?|[5-9]\d{2,})$/.test(value) && null,
      },
    ];
  },
})