【亲测免费】 WeTextProcessing: 文本规范化及逆向文本规范化解决方案

2026-01-17 09:29:33作者：齐冠琰

WeTextProcessing

Text Normalization & Inverse Text Normalization

项目地址：https://gitcode.com/gh_mirrors/we/WeTextProcessing

1. 项目介绍

WeTextProcessing 是一个功能强大的文本处理库，专注于文本规范化的正向和逆向转换。该项目由 wenet-e2e 团队维护，旨在提供高效且准确的文字转化能力，包括但不限于数字、日期时间等特殊文字的规范化和逆规范化（即从规范形式转回自然语言表达）。该工具适用于多种应用场景，如语音识别后的文本后期处理、自然语言理解系统输入前的数据预处理等。

2. 项目快速启动

安装

要使用 WeTextProcessing 库，首先确保你的环境中安装了 Python 3.x 版本。然后可以通过以下命令进行安装：

pip install WeTextProcessing

在安装过程中，Python 的包管理器将自动下载并安装最新版的 WeTextProcessing 及其依赖项。

使用示例

初始化并调用 WeTextProcessing 中提供的文本规范化（TN）和逆向文本规范化（ITN）功能。下面展示如何使用这些功能来实现中英文的规范化处理：

中文规范化示例

from itn.chinese.inverse_normalizer import InverseNormalizer
from tn.chinese.normalizer import Normalizer as ZhNormalizer

zh_tn_text = "你好 WeTextProcessing 1.0 船新版本儿 船新体验儿 简直666"
zh_itn_text = "你好 WeTextProcessing 一点零 船新版本儿 船新体验儿 简直六六六"

# 正常化处理
zh_normalizer = ZhNormalizer()
normalized_text = zh_normalizer.normalize(zh_tn_text)
print("Normalized Chinese text:", normalized_text)

# 逆向规范化处理
inverse_normalizer = InverseNormalizer()
inverted_text = inverse_normalizer.detokenize(inverse_normalizer.denormalize(normalized_text))
print("Detokenized and Denormalized Chinese text:", inverted_text)

英文规范化示例

from tn.english.normalizer import Normalizer as EnNormalizer

en_tn_text = "Hello WeTextProcessing 1.0 life is short just use wetext 666 9 and 10"

# 初始化英文规范化器
en_normalizer = EnNormalizer()

# 执行英文规范化操作
normalized_en_text = en_normalizer.normalize(en_tn_text)
print("Normalized English text:", normalized_en_text)

3. 应用案例和最佳实践

案例一：语音识别后处理

在语音识别的过程中，识别结果往往需要经过文本规范化，将数字、日期等转化为文本表述，以提高可读性和可用性。

案例二：聊天机器人优化

聊天机器人在理解用户输入时，可能遇到各种非标准的文本表示。通过规范化处理，可以提高机器人对输入的理解能力，从而更准确地回应用户的请求。

最佳实践

在部署 WeTextProcessing 前，建议详细了解其文档和API，以便更好地利用其全部功能。
对于大规模数据处理任务，考虑性能影响因素，合理设置缓存策略。

4. 典型生态项目

WeTextProcessing 作为文本处理领域的重要工具，在多个相关项目中发挥着核心作用。以下是几个典型的生态项目案例：

自然语言处理平台: 将 WeTextProcessing 集成到自然语言处理的工作流程中，增强对多类型文本的理解能力。
智能客服系统: 利用 WeTextProcessing 进行客户咨询文本的预处理和后处理，提升服务质量和用户体验。
机器翻译系统: 结合文本规范化功能，改善跨语言通信的准确性。

综上所述，WeTextProcessing 不仅提供了丰富的文本处理功能，同时也促进了整个技术社区的发展和创新。无论是学术研究还是商业应用，它都扮演着不可替代的角色，值得深入探索和应用。

WeTextProcessing

Text Normalization & Inverse Text Normalization

项目地址：https://gitcode.com/gh_mirrors/we/WeTextProcessing

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。