Debian-Calibre/Calibre 编辑器中的函数模式高级搜索替换指南
2025-07-10 23:16:59作者:晏闻田Solitary
什么是函数模式?
在 Debian-Calibre/Calibre 电子书编辑器中,搜索替换工具提供了一个强大的函数模式。这个模式允许你将正则表达式与 Python 函数结合使用,实现各种高级文本处理功能。
与普通正则表达式替换不同,函数模式不是使用固定模板进行替换,而是通过 Python 函数动态生成替换内容。这为文本处理提供了无限可能性。
函数模式的基本结构
所有函数模式的 Python 函数都必须遵循以下基本结构:
def replace(match, number, file_name, metadata, dictionaries, data, functions, *args, **kwargs):
# 处理逻辑
return "替换后的文本"
实用案例解析
案例1:自动修正标题大小写
问题:电子书中的标题大小写不规范,需要统一为标题格式。
解决方案:
# 使用内置的标题格式函数
Find expression: <([Hh][1-6])[^>]*>.+?</\1>
这个正则表达式匹配所有 h1-h6 标签,内置函数会自动将内容转换为标题格式(首字母大写)。
案例2:智能替换连字符为破折号
问题:电子书中使用了简单的连字符(-)而不是标准的破折号(—)。
自定义函数:
def replace(match, number, file_name, metadata, dictionaries, data, functions, *args, **kwargs):
return match.group().replace('--', '—').replace('-', '—')
使用方式:
Find expression: >[^<>]+<
这个函数会先替换双连字符(--),再替换单连字符(-),但不会影响HTML标签内的内容。
案例3:修复错误断词
问题:扫描版电子书中常有因换行导致的错误断词(如"ele-phant")。
高级解决方案:
import regex
from calibre import replace_entities
from calibre import prepare_string_for_xml
def replace(match, number, file_name, metadata, dictionaries, data, functions, *args, **kwargs):
def replace_word(wmatch):
without_hyphen = wmatch.group(1) + wmatch.group(2)
if dictionaries.recognized(without_hyphen):
return without_hyphen
return wmatch.group()
text = replace_entities(match.group()[1:-1])
corrected = regex.sub(r'(\w+)\s*-\s*(\w+)', replace_word, text, flags=regex.VERSION1 | regex.UNICODE)
return '>%s<' % prepare_string_for_xml(corrected)
这个函数会检查断词合并后是否在词典中存在,如果存在则自动合并。
高级功能详解
1. 自动编号章节
通过利用 number 参数,可以实现章节自动编号:
def replace(match, number, file_name, metadata, dictionaries, data, functions, *args, **kwargs):
section_number = '%d. ' % number
return match.group(1) + section_number + match.group(2)
replace.file_order = 'spine'
2. 自动生成目录
更复杂的例子是自动从标题生成目录:
from calibre import replace_entities
from calibre.ebooks.oeb.polish.toc import TOC, toc_to_html
from calibre.gui2.tweak_book import current_container
from calibre.ebooks.oeb.base import xml2str
def replace(match, number, file_name, metadata, dictionaries, data, functions, *args, **kwargs):
if match is None:
if 'toc' in data:
toc = data['toc']
root = TOC()
for (file_name, tag_name, anchor, text) in toc:
parent = root.children[-1] if tag_name == 'h2' and root.children else root
parent.add(text, file_name, anchor)
toc = toc_to_html(root, current_container(), 'toc.html', 'Table of Contents for ' + metadata.title, metadata.language)
print(xml2str(toc))
else:
if 'toc' not in data:
data['toc'] = []
tag_name, anchor, text = match.group(1), replace_entities(match.group(2)), replace_entities(match.group(3))
data['toc'].append((file_name, tag_name, anchor, text))
return match.group()
replace.call_after_last_match = True
replace.file_order = 'spine'
函数参数详解
- match对象:包含匹配到的文本和分组信息
- number:当前匹配的序号(从1开始)
- file_name:匹配所在的文件名
- metadata:电子书的元数据(标题、作者等)
- dictionaries:拼写检查词典
- data:持久化数据存储(在整个替换过程中共享)
- functions:访问其他自定义函数
调试技巧
在函数中使用 print() 输出调试信息,这些信息会在替换完成后显示在弹出窗口中。
最佳实践建议
- 对于简单替换,优先使用内置函数
- 复杂处理时,合理利用
data对象保存中间状态 - 多文件处理时设置
file_order = 'spine'保持顺序 - 需要最终汇总时使用
call_after_last_match = True
通过掌握这些高级功能,你可以极大地提升电子书编辑效率,实现各种复杂的自动化处理需求。
登录后查看全文
热门项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0193
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0121
MiMo-V2.5-Pro-FP4-DFlashMiMo-V2.5-Pro-FP4-DFlash 是驱动 MiMo-V2.5-Pro-UltraSpeed 的底层模型: FP4 量化骨干网络:对 MoE 专家采用 MXFP4 量化,同时保持模型其他部分的更高精度,在几乎无损质量的前提下,显著减小模型体积并降低内存带宽压力。 BF16 DFlash 草稿生成器:用于块扩散推测解码,每次前向传播可生成一整个块的 tokens,并让骨干网络一步完成验证。 两者协同作用,既降低了每参数的位宽,又减少了骨干网络前向传播的次数,而这两者正是万亿参数模型解码过程中的两大主要成本来源。Python00
JoyAI-EchoJoyAI-Echo,这是一个独立的、仅用于推理的版本,旨在实现分钟级多镜头音视频生成。它采用了经过蒸馏的DMD生成器、配对的跨模态记忆以及故事级别的一致性。其性能的核心在于,一个跨模态视听记忆库能够在长达五分钟的视频中保持角色外观和语音音色的一致性。同时,一个训练后处理流程将基于记忆的强化学习与分布匹配蒸馏相结合,实现了7.5倍的速度提升,显著增强了视觉质量和对齐效果。00
AstrBot✨ 易上手的多平台 LLM 聊天机器人及开发框架 ✨ 平台支持 QQ、QQ频道、Telegram、微信、企微、飞书 | OpenAI、DeepSeek、Gemini、硅基流动、月之暗面、Ollama、OneAPI、Dify 等。附带 WebUI。Python05
handy-ollama动手学Ollama,CPU玩转大模型部署,在线阅读地址:https://datawhalechina.github.io/handy-ollama/Jupyter Notebook05
项目优选
收起
暂无描述
Dockerfile
766
4.99 K
本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。
C++
857
1.94 K
本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。
C++
686
1.34 K
Ascend Extension for PyTorch
Python
721
888
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
1.08 K
1.1 K
deepin linux kernel
C
32
16
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
458
445
本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本,由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用,3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。
Dart
1.01 K
262
华为昇腾面向大规模分布式训练的多模态大模型套件,支撑多模态生成、多模态理解。
Python
151
253
CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体,本仓库为其提供可复用的 Skills 模块。
Python
1 K
617