pyglossary项目中的DSL词典转Yomichan格式优化方案

2025-07-02 10:28:09作者：卓艾滢Kingsley

A tool for converting dictionary files aka glossaries. Mainly to help use our offline glossaries in any Open Source dictionary we like on any modern operating system / device.

项目地址：https://gitcode.com/gh_mirrors/py/pyglossary

在pyglossary项目中，开发者近期针对DSL格式词典转换为Yomichan格式时遇到的重复词条处理问题进行了重要优化。本文将详细介绍这一技术改进的背景、解决方案及其实现细节。

问题背景

当将DSL格式的词典转换为Yomichan格式时，原始DSL词典中可能存在多个相同词头的词条。例如：

test
    [i]type[/i] (example)
    definition
test
    [i]another type[/i] (example)
    another [b]definition[/b]

在转换过程中，pyglossary会为重复词条自动添加序号后缀（如"(2)"），这导致在Yomitan/Yomichan中无法正常显示所有词条内容，用户必须手动搜索带序号后缀的词条才能查看。

技术挑战

Yomichan的JSON格式词典本质上不允许存在完全相同的键名。这一限制使得直接保留多个相同词头的词条变得不可能。开发者需要找到一种既能保留所有词典内容，又符合Yomichan格式要求的解决方案。

解决方案

经过讨论和测试，开发者最终采用了词条合并的方案：

识别所有相同词头的词条
使用水平分隔线（<hr>标签）将这些词条内容合并为一个条目
保留原始DSL格式中的富文本标记（如[i][/i]等）

这种方案既解决了JSON格式的限制问题，又确保了所有词典内容都能在Yomichan中正常显示。

实现细节

在技术实现上，开发者创建了专门的代码分支（yomichan-merge）进行测试。最初的实现遇到了HTML标签转义问题，导致富文本标记被显示为纯文本。经过多次迭代后，最终版本能够：

正确处理富文本标记
在合并的词条间添加适当的分隔
保持原始词典的格式和内容完整性

用户价值

这一改进为使用Yomichan/Yomitan的用户带来了显著的使用体验提升：

所有相同词头的词条内容都能在一次搜索中完整显示
保留了原始词典的格式和排版
无需特殊操作即可查看所有相关词条内容

总结

pyglossary项目通过这次优化，解决了DSL转Yomichan格式时的词条重复问题，展示了开源项目持续改进的活力。这一改进不仅提升了工具的功能性，也为词典用户提供了更完整、更便捷的使用体验。未来，开发者可能会进一步优化富文本支持，使词典显示效果更加专业美观。

pyglossary

A tool for converting dictionary files aka glossaries. Mainly to help use our offline glossaries in any Open Source dictionary we like on any modern operating system / device.

项目地址：https://gitcode.com/gh_mirrors/py/pyglossary

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理