LunaTranslator项目中过滤尖括号文本的技术解析

2025-06-02 05:52:14作者：胡易黎Nicole

在视觉小说翻译工具LunaTranslator的实际应用中，用户经常会遇到游戏文本中包含大量尖括号标记的干扰内容。这类问题在《裸執事～過去編～》等日系游戏中尤为常见，脚本引擎会输出包含控制符、变量标记等非对话内容，严重影响翻译质量和阅读体验。

技术背景分析

现代视觉小说引擎（如Kirikiri、NScripter等）普遍采用尖括号作为脚本标记符，主要用于：

控制指令（如<wait=30>延时）
变量占位（如<name=主角>）
特效标记（如<ruby=漢字|假名>）
引擎专用语法（如表达式）

这些非对话内容若不经处理直接送入翻译引擎，会导致：

翻译API误判语义上下文
输出结果包含无意义代码片段
破坏目标语言的语法结构

LunaTranslator的解决方案

项目文档中提供的文本预处理功能通过正则表达式过滤机制，可精准识别并剔除尖括号内容。其核心处理逻辑包含：

模式识别
构建/<[^>]*>/g正则表达式，匹配所有尖括号及其内部内容

预处理流水线

def preprocess(text):
    return re.sub(r'<[^>]*>', '', text)  # 基础实现示例

上下文保留机制
智能跳过特定关键标记（如换行符
），保持文本基础排版

实际应用建议

对于《裸執事》这类引擎的游戏，推荐采用以下配置方案：

基础过滤
启用"过滤尖括号"选项，清除90%以上的干扰标记
例外处理
对需要保留的特殊标记（如角色名变量），可通过自定义规则实现：
```
保留模式：/<name=(.*?)>/
替换为：\1
```
后处理优化
配合使用换行符标准化、全半角转换等功能，进一步提升输出质量

该方案已在实际应用中得到验证，能有效解决原始issue中报告的"junk text"问题，使对话文本恢复可读状态。开发者后续可考虑增加标记语法数据库，针对不同游戏引擎提供预设过滤方案。

LunaTranslator

视觉小说翻译器 / Visual Novel Translator

项目地址：https://gitcode.com/GitHub_Trending/lu/LunaTranslator

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

394

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.68 K

989