AllTalk TTS项目中的Emoji过滤技术解析

2025-07-09 23:53:34作者：袁立春Spencer

AllTalk is based on the Coqui TTS engine, similar to the Coqui_tts extension for Text generation webUI, however supports a variety of advanced features, such as a settings page, low VRAM support, DeepSpeed, narrator, model finetuning, custom models, wav file maintenance. It can also be used with 3rd Party software via JSON calls.

项目地址：https://gitcode.com/gh_mirrors/al/alltalk_tts

在语音合成技术应用中，文本预处理是一个至关重要的环节。AllTalk TTS作为SillyTavern的扩展插件，在处理包含Emoji的文本时遇到了特殊挑战——系统会尝试将Emoji符号转换为语音，导致输出质量下降。

问题背景

当角色对话中包含Emoji表情时，这些非文本符号会被直接送入语音合成引擎。由于Emoji本质上属于Unicode图形符号，TTS引擎无法正确解析其语义，导致生成不自然的语音停顿或错误发音。

技术解决方案

AllTalk项目提供了两种文本过滤模式：

标准模式(standard)：保留原始文本格式
HTML模式(html)：启用HTML实体编码处理

通过修改SillyTavern扩展配置文件中的text_filtering参数，可以激活HTML过滤模式。该模式会自动剥离文本中的Emoji等非语音元素，确保TTS引擎只处理纯文本内容。

实现方法

在SillyTavern的扩展配置文件中，开发者需要定位到TTS模块的JavaScript文件(alltalk.js)，找到text_filtering参数配置项，将其值从"standard"修改为"html"。这一修改会启用内置的HTML解析器，在文本送入语音合成引擎前完成表情符号的过滤。

技术原理

HTML过滤模式的工作原理是：

解析输入文本的DOM结构
识别并移除所有非文本节点
对特殊字符进行实体编码转换
输出纯文本内容

这种处理方式不仅解决了Emoji问题，还能有效处理其他可能影响TTS输出的特殊符号，如HTML标签、控制字符等。

最佳实践建议

对于语音合成应用开发，建议：

在文本预处理阶段加入符号过滤
根据应用场景选择合适的过滤级别
对不同类型的非文本内容采用差异化处理策略
保留原始文本用于显示，仅将过滤后文本用于语音合成

AllTalk项目后续版本计划进一步优化文本预处理流程，提供更灵活的过滤配置选项，以满足不同场景下的语音合成需求。

alltalk_tts

项目地址：https://gitcode.com/gh_mirrors/al/alltalk_tts

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

458

453

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。