ingredient-parser项目中的句子标准化处理技术解析

2025-06-20 00:22:15作者：温艾琴Wonderful

引言

在自然语言处理(NLP)领域，数据预处理是构建高效模型的关键步骤。本文将深入解析ingredient-parser项目中针对食材描述句子的标准化处理技术，这是该项目预处理流程的核心部分。

标准化处理的重要性

标准化处理是将句子中的特定特征转换为标准形式的过程，其核心目标是：

消除数据中可预见的变体
为模型提供整洁一致的数据
降低模型学习难度
提高标签分配的准确性

标准化处理流程详解

ingredient-parser项目通过PreProcessor类实现句子标准化，初始化时自动调用_normalise方法完成以下处理步骤：

1. 特殊符号标准化

破折号处理：

将en-dash(–)和em-dash(—)统一转换为连字符(-)
目的：便于数量范围的识别

2. 分数表示标准化

HTML实体分数转换：

将HTML实体分数(如½)转换为Unicode形式(如½)
使用Python标准库的html.unescape函数实现

Unicode分数转换：

将Unicode分数转换为文本格式(如½→1/2)
特殊处理两种情况：
- 前面有连字符时：保持连接(如½-¾→1/2-3/4)
- 前面无连字符时：添加空格(如1½→1 1/2)

3. 复合分数处理

"and"连接的分数合并：

处理如"1 and 1/2"的复合分数
提前处理避免后续步骤将1/2单独处理

4. 分数标记化保护

分数特殊标记：

小于1的分数：1/2→#1$2
大于1的分数：2 3/4→2#3$4
目的：确保分数在分词时保持为单个token

5. 数量与单位分离

强制分隔：

在数量和单位间强制添加空格
处理连字符连接的情况(如1-cup→1 cup)
特殊处理"x"表示的数量(如1x, 2x)

6. 单位后缀处理

去除多余句点：

移除单位后的冗余句点(如tsp.→tsp)
仅针对训练数据中观察到的特定单位

7. 范围表达式标准化

范围格式统一：

识别多种范围表达形式：
- "1 to 2"
- "1- to 2-"
- "1 or 2"
- "1- or 2-"
统一转换为"X-Y"格式
确保范围保持为单个token

8. 重复单位处理

范围中单位合并：

处理如"5 oz - 8 oz"→"5-8 oz"
考虑单位同义词(如oz和ounce)

9. 数量与"x"合并

特殊数量格式：

合并如"1 x"→"1x"
"0.5 x"→"0.5x"

10. 范围格式优化

空格清理：

移除范围连字符周围的空格

单位单数化处理

虽然单位单数化在分词后执行，但值得在此说明：

使用预定义的复数单位到单数形式的映射
记录被修改的token索引
模型标注后可自动恢复复数形式

调试技巧

通过设置show_debug_output=True，可以观察标准化过程的每个中间步骤，这对理解处理流程和调试非常有帮助。

结语

ingredient-parser项目的句子标准化处理展现了专业NLP工程中的精细设计，通过系统化的预处理流程，显著提升了后续模型处理的准确性和可靠性。这种处理方式不仅适用于食材解析领域，也可为其他领域的文本处理提供参考。

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

394

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.68 K

989