告别语音合成痛点：ChatTTS-ui如何让中英文数字混合阅读更自然

2026-02-05 04:44:09作者：伍希望

一个简单的本地网页界面，使用ChatTTS将文字合成为语音，同时支持对外提供API接口。A simple native web interface that uses ChatTTS to synthesize text into speech, along with support for external API interfaces.

项目地址：https://gitcode.com/GitHub_Trending/ch/ChatTTS-ui

你是否遇到过语音合成把"3月5日"读成"三月五日"，把"2023年"拆成"二零二三年"的尴尬？当文本中同时包含中文、英文和数字时，传统TTS系统往往顾此失彼。ChatTTS-ui通过创新的文本标准化与混合编码技术，实现了流畅自然的多语言语音合成。本文将深入解析其核心实现原理，带你了解如何让机器像人类一样"读懂"复杂文本。

系统架构概览

ChatTTS-ui采用模块化设计，主要包含文本预处理层、模型推理层和Web交互层。核心处理流程如下：

graph LR
A[用户输入文本] --> B[文本标准化]
B --> C[分词与编码]
C --> D[语音合成模型]
D --> E[音频输出]

关键模块路径：

文本标准化核心：uilib/zh_normalization/text_normlization.py
分词器实现：ChatTTS/model/tokenizer.py
Web服务入口：app.py

中英文数字混合处理的挑战

传统TTS系统在处理混合文本时面临三大核心问题：

数字读法歧义："123"在"123元"中应读"一百二十三"，在"123房间"中应读"一二三"
多语言切换生硬：中英文夹杂时语调不自然
特殊符号处理：日期、电话号码等格式的正确转换

ChatTTS-ui通过三级处理机制解决这些问题：文本标准化、语境感知分词和混合语音合成。

文本标准化引擎详解

文本标准化模块是处理混合文本的关键，位于uilib/zh_normalization/text_normlization.py。其核心工作流程包括：

1. 规则式模式匹配

系统内置多种正则表达式模式识别不同类型文本：

# 日期识别示例
RE_DATE = re.compile(r'(\d{1,4})年/月/[日号]?')
RE_DATE2 = re.compile(r'(\d{1,2})月/[日号]?')

# 数字识别示例
RE_NUMBER = re.compile(r'(\d+\.?\d*|\.\d+)([eE][+-]?\d+)?')

2. 上下文感知转换

系统根据上下文决定数字的读法，如：

# 处理分数表示
def replace_frac(match):
    numerator = match.group(1)
    denominator = match.group(2)
    return f"{denominator}分之{numerator}"

# 处理百分比
def replace_percentage(match):
    num = match.group(1)
    return f"{num}百分之"

3. 特殊格式处理

针对电话号码、日期等特殊格式，系统采用专用转换逻辑：

# 电话号码处理
RE_MOBILE_PHONE = re.compile(r'1[3-9]\d{9}')
def replace_mobile(match):
    phone = match.group()
    return ' '.join(list(phone))  # 将13800138000转为"1 3 8 0 0 1 3 8 0 0 0"

分词与编码机制

分词器ChatTTS/model/tokenizer.py负责将标准化文本转换为模型可理解的编码。其创新点在于：

1. 混合语言分词策略

def encode(self, text: List[str], num_vq: int, prompt_str: Optional[str] = None, device="cpu") -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
    # 处理多语言混合文本
    input_ids_lst = []
    for t in text:
        x = self._tokenizer.encode_plus(
            t, return_tensors="pt", add_special_tokens=False, padding=True
        )
        input_ids_lst.append(x["input_ids"].squeeze_(0))
    # ...

2. 动态长度调整

根据文本长度自动调整编码策略，平衡合成质量与效率：

# 动态调整最大长度
max_input_ids_len = -1
for t in text:
    # ...计算长度
    if ids_sz > max_input_ids_len:
        max_input_ids_len = ids_sz

Web界面与API服务

app.py实现了Web界面和API服务，提供直观的交互方式。核心API接口设计如下：

@app.route('/tts', methods=['GET', 'POST'])
def tts():
    # 获取请求参数
    text = request.args.get("text","").strip() or request.form.get("text","").strip()
    voice = utils.get_parameter(request, "voice", defaults["voice"], str)
    # ...处理参数
    
    # 调用合成引擎
    wavs = chat.infer(
        te, 
        stream=True if is_stream==1 else False,
        skip_refine_text=skip_refine,
        do_text_normalization=False,
        do_homophone_replacement=True,
        params_refine_text=params_refine_text,
        params_infer_code=params_infer_code
    )
    # ...返回结果

API请求示例：

curl -X POST "http://127.0.0.1:9966/tts" \
  -d "text=今天是2023年10月5日，气温23.5℃" \
  -d "voice=2222" \
  -d "temperature=0.3"

实际应用案例

以下是几个复杂场景的处理效果对比：

输入文本	传统TTS处理结果	ChatTTS-ui处理结果
"3月5日"	"三月五日"	"三月五日"
"Room 102"	"Room 一零二"	"Room 幺零二"
"联系电话：010-12345678"	"联系电话：零一零-一二三四五六七八"	"联系电话：零一零杠一二三四五六七八"