DeepKE项目中化学式实体识别的BIO标注策略优化实践

2025-06-17 02:21:16作者：伍霜盼Ellen

[EMNLP 2022] An Open Toolkit for Knowledge Graph Extraction and Construction

项目地址：https://gitcode.com/gh_mirrors/de/DeepKE

在自然语言处理领域，实体识别任务中化学式这类特殊实体的标注策略往往直接影响模型效果。本文通过一个典型场景，探讨了中英文混合化学式在BIO标注体系下的最佳实践方案。

问题背景

在采用W2NER模型进行化学领域实体识别时，开发者发现对于SiO₂、K₂O等化学式实体存在一个矛盾现象：虽然验证集的F1值达到0.96，但实际预测时却无法有效识别这类实体。初步分析表明，这可能与标注方式或样本数量有关。

两种标注方案对比

方案一：整体标注

将整个化学式作为单一实体标注：

SiO₂ B-ELE

方案二：逐字符标注

对化学式中的每个字符单独标注：

S B-ELE
i I-ELE
O I-ELE
₂ I-ELE

关键发现

分词影响：化学式中英文字符混合时，预训练模型的tokenizer可能将其拆分为字母级别，导致整体标注方案的实际输入与训练标注不匹配
泛化能力：实验证明逐字符标注显著提升了模型对化学式的识别能力，这可能是由于：
- 更符合底层tokenizer的分词特性
- 增强了模型对化学式内部结构的理解
- 提高了标注与模型输入的对应一致性
数据统计：需要检查训练数据中化学式被tokenizer处理后的实际分词情况，这直接影响应该采用哪种标注策略

实践建议

对于包含特殊符号、中英文混合的实体标注，建议采取以下步骤：

分词分析：使用目标模型的tokenizer对训练数据进行预处理分析
标注测试：对典型样本进行不同标注方案的对比实验
效果验证：不仅要看验证指标，更要关注实际预测效果
混合策略：对于确定不会被分词的化学式保持整体标注，易分词的采用逐字符标注

延伸思考

这种现象揭示了NLP中一个普遍性问题：标注策略需要与模型底层的文本处理方式保持一致。特别是在处理专业领域文本时，常规的标注方案可能需要针对领域特性进行调整。未来在处理类似场景时，建议将tokenizer的分析作为标注方案设计的重要参考依据。

[EMNLP 2022] An Open Toolkit for Knowledge Graph Extraction and Construction

项目地址：https://gitcode.com/gh_mirrors/de/DeepKE

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

最新内容推荐

AcFunDown视频下载工具完全指南还在为数字笔记抓狂？这款开源神器让手写批注效率提升300%Windows笔记本电池健康管理全指南：从根源解决电池损耗问题 gmx_MMPBSA分子间相互作用索引错误的深度诊断与解决 Axure RP 11 本地化方案：Mac中文界面优化与原型设计工具汉化全指南如何高效获取教育资源？这款工具让教材下载效率提升80%视频元数据深度编辑：专业技巧与案例网盘直链下载技术解析与应用指南如何用DeepSeek-R1推理模型提升复杂任务解决能力：完整指南 5个突破瓶颈技巧：硬件优化工具让你的电脑性能提升30%

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

deepin linux kernel

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

flutter_flutter

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统