Stanza项目新增古英语(Old English)语言支持的技术解析

2025-05-30 10:57:46作者：毕习沙Eudora

背景介绍

自然语言处理工具Stanza近期新增了对古英语(Old English, 简称ANG)的语言支持。古英语是英语的早期形式，使用于公元5世纪至12世纪，与现代英语差异巨大，更接近德语等日耳曼语系语言。由于现存古英语文本仅有约300万词，这给NLP模型的训练带来了独特挑战。

项目团队首先收集整理了完整的古英语语料库，包括原始文本和标注数据。由于数据量有限，团队采取了以下关键步骤：

团队针对古英语特点，训练了完整的NLP处理流水线：

特别值得注意的是，字符级语言模型的引入带来了显著提升。尽管古英语语料规模有限，但通过调整模型参数规模，最终采用的1024维字符模型在各任务上都取得了更好的表现。

数据稀缺问题：现存古英语文本仅300万词，远少于现代语言的语料规模。团队通过精心设计模型结构和参数来应对这一挑战。
词形还原的特殊性：古英语的词形变化复杂，现有标注方式将词形和释义合并标注(如"bēon/wesan/sēon 'to be'")，这为未知文本处理带来了困难。
预训练模型适配：尝试了多种历史英语预训练模型后发现，这些模型主要针对1450年后的英语，无法有效处理古英语。最终团队决定从零开始训练专用模型。

这一工作为古英语的数字化研究和处理提供了重要工具，使得：

Stanza对古英语的支持展示了NLP技术在历史语言处理领域的应用潜力，为其他古代语言的处理提供了可借鉴的方案。随着数据集的扩充和模型的持续优化，这一工作有望为古代语言研究带来更多突破。

登录后查看全文