Himalaya 从入门到实践：零基础掌握 HTML 转 JSON 解析工具指南

2026-03-12 04:36:39作者：谭伦延

价值定位：为什么选择 Himalaya？

当你需要在 JavaScript 环境中处理 HTML 内容时，是否遇到过手动解析 DOM 结构的繁琐？Himalaya 作为一款轻量级 HTML 转 JSON 解析器，解决了传统 DOM 操作在非浏览器环境（如 Node.js）中无法使用的痛点。它通过将 HTML 字符串转换为结构化 JSON 对象，让开发者能够像操作普通数据一样处理标记语言，极大简化了模板分析、内容提取和静态站点生成等场景的实现难度。

环境准备：三步启动法

环境检查：确保开发环境就绪

问题：如何验证系统是否满足 Himalaya 的运行要求？
解决方案：执行以下命令检查 Node.js 和 npm 版本：

node -v && npm -v

效果验证：输出应显示 Node.js ≥ 8.0.0 和 npm ≥ 5.0.0，这是项目 package.json 中 devDependencies 依赖的最低要求。

配置注入：获取源码并安装依赖

问题：如何快速获取项目并配置开发环境？
解决方案：通过 Git 克隆仓库并安装依赖：

git clone https://gitcode.com/gh_mirrors/him/himalaya
cd himalaya
npm install

效果验证：项目根目录下生成 node_modules 文件夹，同时 package.json 中 scripts 定义的命令可通过 npm 执行。

服务验证：运行测试确保功能正常

问题：如何确认解析器核心功能是否工作？
解决方案：执行项目测试套件：

npm test

效果验证：测试输出显示所有用例通过，特别是 test/parser.js 中验证的标签嵌套、属性解析等核心场景。

核心功能：核心文件功能图谱

Himalaya 的解析能力源于 src 目录下的六大核心模块，它们协同完成从 HTML 字符串到 JSON AST 的转换过程：

lexer.js：词法分析器，将 HTML 字符串拆分为标签、文本、注释等基础 token，如识别 <div class="test"> 为标签开始、属性和标签结束的序列。
parser.js：语法分析器，接收 token 流并构建 DOM 树结构，处理标签嵌套和自闭合逻辑（如 <img/> 无需闭合标签）。
format.js：格式化器，优化 AST 结构，确保输出 JSON 符合统一规范，例如标准化属性键值对格式。
stringify.js：反向转换器，将 JSON AST 还原为 HTML 字符串，支持自定义属性引号风格等选项。
tags.js：标签规则定义，包含 voidTags（自闭合标签）、closingTags（可选闭合标签）等核心配置，决定解析器对不同标签的处理方式。
index.js：对外 API 入口，导出 parse() 和 stringify() 方法，串联整个解析流程。

实战案例：HTML 转 JSON 全流程

基础解析：将 HTML 字符串转换为 JSON

问题：如何将简单 HTML 片段转换为可操作的 JSON 对象？
解决方案：使用 parse() 方法处理 HTML 字符串：

const { parse } = require('./src/index')
const html = '<h1 class="title">Hello Himalaya</h1>'
const ast = parse(html)
console.log(JSON.stringify(ast, null, 2))

效果验证：输出 JSON 结构包含 tagName、attributes 和 children 字段，清晰反映原始 HTML 的层级关系。

高级配置：自定义解析规则

问题：如何处理非标准 HTML 标签或自定义自闭合标签？
解决方案：通过配置参数扩展解析规则：

const ast = parse('<custom-tag />', {
  voidTags: ['custom-tag'], // 新增自闭合标签
  includePositions: true    // 保留原始位置信息
})

效果验证：生成的 AST 中 custom-tag 被识别为自闭合元素，且包含 start/end 位置属性。

场景化配置方案

开发环境配置

需求：开发阶段需要详细错误信息和位置追踪
配置：

{
  includePositions: true,  // 保留解析位置信息
  preferDoubleQuoteAttributes: false  // 使用单引号属性，符合代码规范
}

测试环境配置

需求：自动化测试中需要严格的标签验证
配置：

{
  closingTags: ['p', 'li'],  // 强制闭合可选标签
  closingTagAncestorBreakers: { li: ['ul'] }  // 处理列表嵌套特殊情况
}

生产环境配置

需求：追求解析性能和输出简洁性
配置：

{
  includePositions: false,  // 禁用位置信息，减少输出体积
  voidTags: require('./src/tags').voidTags.concat(['my-custom-void'])  // 扩展默认自闭合标签
}

最佳实践：生产环境配置技巧

1. 自定义标签规则优化解析效率

通过扩展 tags.js 中的标签定义，将项目中常用的自定义标签加入解析规则，避免重复配置：

// 在 src/tags.js 中扩展
export const voidTags = ['area', 'base', 'br', 'my-app-loading']

优势：解析器可直接识别自定义标签，无需每次调用 parse() 时传入配置。

2. 使用流式解析处理大文件

对于几 MB 以上的 HTML 文件，建议配合 Node.js 流模块分块处理：

const { createReadStream } = require('fs')
const { parse } = require('./src/index')
let buffer = ''
createReadStream('large.html')
  .on('data', chunk => buffer += chunk)
  .on('end', () => console.log(parse(buffer)))

优势：避免一次性加载大文件导致的内存溢出问题。

3. 缓存解析结果提升性能

对频繁解析的固定 HTML 模板，缓存解析后的 AST：

const cache = new Map()
function getParsedAst(html) {
  if (!cache.has(html)) {
    cache.set(html, parse(html))
  }
  return cache.get(html)
}

优势：重复解析相同内容时，响应速度提升 80% 以上。

常见问题

Q: 解析包含复杂嵌套标签的 HTML 时出现结构错误？

A: 检查是否正确配置了 closingTagAncestorBreakers。例如表格嵌套需设置：

{
  closingTagAncestorBreakers: {
    tbody: ['table'],
    tr: ['table'],
    td: ['table']
  }
}

可参考 test/parser.js 中 "handle nested tables" 测试用例的配置。

Q: 如何保留 HTML 中的注释内容？

A: 解析结果默认包含注释节点，可通过过滤 AST 提取：

const comments = parse(html).filter(node => node.type === 'comment')

扩展学习路径

AST 结构深入：阅读 text/ast-spec-v1.md 了解抽象语法树的详细规范
高级 API 使用：探索 src/index.js 中 parseDefaults 配置项的更多可能性
性能优化指南：研究 lexer.js 中的词法分析逻辑，优化自定义标签解析效率
测试编写实践：参考 test/parser.js 中的测试用例结构，为自定义规则编写验证代码

通过以上内容，你已掌握 Himalaya 的核心使用方法和最佳实践。这款工具虽轻量但功能强大，无论是构建静态站点生成器、开发 HTML 模板引擎，还是实现内容提取工具，都能显著提升开发效率。现在就将它集成到你的项目中，体验 HTML 解析的新方式吧！

himalaya

JavaScript HTML to JSON Parser

项目地址：https://gitcode.com/gh_mirrors/him/himalaya

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

395

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

atomcode

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.68 K

989