解决阅读资源匮乏的5个高效方案：Legado书源规则完全指南

2026-04-14 08:58:12作者：钟日瑜

你是否曾因找不到稳定的小说阅读源而烦恼？是否在面对复杂的网页结构时不知如何提取正文？Legado作为一款强大的自定义阅读工具，通过灵活的书源规则系统，让你轻松掌控网络内容的获取方式。本文将带你深入理解自定义阅读规则的核心原理，掌握书源解析引擎的工作机制，从而打造真正个性化的阅读体验。

一、理解原理：Legado书源规则的底层逻辑

1.1 书源规则的核心构成

Legado的书源规则系统采用JSON格式设计，本质上是一套"内容定位-提取-处理"的指令集。一个完整的书源规则包含三个关键模块：

模块	作用	核心字段
源信息配置	定义书源基本属性	bookSourceName, bookSourceUrl, enabled
网络请求控制	配置HTTP请求参数	header, method, body
内容解析规则	定义数据提取逻辑	ruleSearch, ruleToc, ruleContent

这种模块化设计使得规则既可以简单到几行代码，也可以复杂到包含JavaScript处理逻辑，满足不同网站的解析需求。

1.2 解析引擎的工作流程

Legado的解析引擎采用"请求-解析-转换"的三段式工作流程：

网络请求阶段：根据配置的URL和请求头获取目标网页内容
数据提取阶段：通过JSONPath或正则表达式定位关键数据
内容转换阶段：应用替换规则和JavaScript处理生成最终内容

思考问题：为什么Legado同时支持JSONPath和正则表达式两种解析方式？它们分别适用于什么场景？

二、场景分析：不同阅读需求的规则设计策略

2.1 如何通过规则设计实现小说网站的高效解析

小说网站通常具有固定的页面结构，但不同网站的HTML组织方式差异较大。以下是两种典型场景的解决方案：

静态HTML网站解析：

{
  "bookSourceName": "纯文本小说网",
  "bookSourceUrl": "https://example.com",
  "ruleSearch": {
    "bookList": "//div[@class='book-list']/ul/li",
    "name": ".//h3/a/text()",
    "author": ".//p[@class='author']/text()",
    "bookUrl": ".//h3/a/@href"
  },
  "ruleContent": {
    "content": "//div[@id='content']",
    "replaceRegex": [
      ["<script.*?</script>", ""],
      ["<div class='ad.*?</div>", ""]
    ]
  }
}

API驱动型网站解析：

{
  "bookSourceName": "API小说平台",
  "bookSourceUrl": "https://api.example.com",
  "searchUrl": "https://api.example.com/search?q={{searchKey}}",
  "ruleSearch": {
    "bookList": "$.data.books",
    "name": "$.title",
    "author": "$.author",
    "coverUrl": "$.cover",
    "bookUrl": "$.id@/book/{{result}}"
  }
}

2.2 特殊内容类型的规则设计方案

不同类型的内容需要针对性的规则设计：

音频书源配置：

{
  "bookSourceType": 1,
  "ruleToc": {
    "chapterList": "$.chapters",
    "chapterName": "$.title",
    "chapterUrl": "$.audioUrl"
  }
}

图片漫画源配置：

{
  "bookSourceType": 2,
  "ruleContent": {
    "content": "$.images[*].url",
    "imgStyle": "max-width:100%;height:auto;"
  }
}

三、实践指南：从零开始创建自定义书源

3.1 基础规则模板构建

以下是一个通用的文本书源模板，你可以以此为基础进行修改：

{
  "bookSourceName": "自定义书源",
  "bookSourceGroup": "小说",
  "bookSourceUrl": "https://example.com",
  "enabled": true,
  "bookSourceType": 0,
  "header": {
    "User-Agent": "Mozilla/5.0 (Linux; Android 10) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.181 Mobile Safari/537.36",
    "Referer": "{{bookSourceUrl}}"
  },
  "searchUrl": "https://example.com/search?q={{searchKey}}&page={{searchPage}}",
  "ruleSearch": {
    "bookList": "//div[@class='search-result']/div[contains(@class,'book-item')]",
    "name": ".//h2/a/text()",
    "author": ".//p[contains(@class,'author')]/text()",
    "coverUrl": ".//img/@src",
    "bookUrl": ".//h2/a/@href"
  },
  "ruleBookInfo": {
    "name": "//h1/text()",
    "author": "//div[contains(text(),'作者')]/following-sibling::text()",
    "intro": "//div[@id='intro']/p/text()"
  },
  "ruleToc": {
    "chapterList": "//ul[@class='chapter-list']/li",
    "chapterName": ".//a/text()",
    "chapterUrl": ".//a/@href"
  },
  "ruleContent": {
    "content": "//div[@id='content']",
    "replaceRegex": [
      ["<script.*?</script>", ""],
      ["<.*?class=['\"]?ad['\"]?.*?>.*?</.*?>", ""]
    ]
  }
}

3.2 高级功能实现：登录认证与JavaScript处理

对于需要登录的网站，可添加登录规则：

"loginUrl": "var loginInfo = source.getLoginInfo();java.connect('https://example.com/login', {method:'POST', body: loginInfo}).body()",
"loginCheckJs": "var res = JSON.parse(result.body());return res.code == 200;"

使用JavaScript增强解析能力：

"coverUrl": "$.cover@js:java.put('coverPath', result);'https://img.example.com/'+result",
"bookUrl": "$.id@js:java.get('bookSourceUrl') + '/book/' + result + '.html'"

3.3 规则模板选择器

根据目标网站类型选择合适的规则模板：

静态HTML网站 → 使用XPath选择器解析
JSON API网站 → 使用JSONPath解析
需要登录的网站 → 添加loginUrl和loginCheckJs
音频/漫画网站 → 设置相应的bookSourceType

四、进阶拓展：规则优化与性能提升

4.1 规则优化原理

Legado的解析性能主要受以下因素影响：

选择器效率：XPath比正则表达式更高效
匹配范围：精确的选择器比宽泛的选择器更快
数据量：限制返回数据大小能显著提升性能

优化前：

"chapterList": "//*[@id='chapterList']//li"

优化后：

"chapterList": "//ul[@id='chapterList']/li"

4.2 不同规则写法的性能对比

解析方式	执行时间	内存占用	适用场景
XPath精确选择	快	低	结构固定的网页
XPath模糊选择	中	中	结构变化不大的网页
正则表达式	慢	高	复杂文本提取
JavaScript处理	最慢	最高	复杂数据转换

4.3 个性化阅读体验配置

Legado支持丰富的阅读界面自定义选项，通过修改配置文件实现：

"readConfig": {
  "fontSize": 16,
  "lineSpacing": 1.5,
  "paragraphSpacing": 8,
  "background": "app/src/main/assets/bg/护眼漫绿.jpg",
  "fontFamily": "app/src/main/assets/font/number.ttf"
}

五、常见场景解决方案

5.1 反爬机制应对策略

动态User-Agent配置：

"header": {
  "User-Agent": "js:['Mozilla/5.0...', 'Chrome/88.0...', 'Safari/537.36'][Math.floor(Math.random()*3)]"
}

Referer伪装：

"header": {
  "Referer": "{{bookSourceUrl}}"
}

5.2 内容净化与处理

广告过滤：

"ruleContent": {
  "replaceRegex": [
    ["<div class='ad.*?</div>", ""],
    ["<!--广告.*?-->", ""],
    ["(广告|推广).{0,20}?", ""]
  ]
}

内容格式化：

"ruleContent": {
  "replaceRegex": [
    ["\\n{3,}", "\n\n"],
    ["\\s{2,}", " "],
    ["^\\s+", ""]
  ]
}

附录：规则健壮性检测清单

在部署书源规则前，建议进行以下检查：

基础配置检查
- [ ] bookSourceUrl是否正确
- [ ] enabled是否设为true
- [ ] 必要的header是否配置
解析规则检查
- [ ] searchUrl是否包含必要参数
- [ ] ruleSearch的bookList选择器是否正确
- [ ] ruleContent是否包含广告过滤规则
错误处理检查
- [ ] 是否配置了loginCheckJs
- [ ] 是否处理了可能的空值情况
- [ ] 是否考虑了网站结构变化的可能性