Flair NLP 0.15.1版本发布：新增深度最近类均值分类器与多项优化

2025-06-02 10:22:05作者：秋泉律Samson

A very simple framework for state-of-the-art Natural Language Processing (NLP)

项目地址：https://gitcode.com/gh_mirrors/fl/flair

Flair是一个基于PyTorch构建的现代自然语言处理(NLP)框架，以其简单易用的API和强大的序列标注能力而闻名。该框架支持多种NLP任务，包括命名实体识别(NER)、词性标注(POS)、文本分类等。最新发布的0.15.1版本不仅修复了与PyTorch和SciPy最新版本的兼容性问题，还引入了一些令人兴奋的新功能和改进。

核心新功能：深度最近类均值分类器

本次更新最引人注目的新增功能是深度最近类均值(Deep Nearest Class Means, DeepNCM)分类器。这是一种替代传统Softmax分类器的新方法，其核心思想是将数据点分类到具有最接近类数据均值的类别。

DeepNCM分类器特别适合以下场景：

类别不平衡的数据集
需要更鲁棒分类决策的任务
希望减少模型复杂度的应用

在Flair框架中使用DeepNCM非常简单。开发者可以通过创建一个特殊的DeepNCMDecoder并将其传递给TextClassifier来构建模型。训练时还需要添加DeepNCMPlugin插件。这种设计保持了Flair一贯的简洁API风格，同时提供了强大的新功能。

文本处理与标注增强

0.15.1版本对文本处理流程进行了多项改进：

SegtokTokenizer定制化：现在可以更灵活地配置这个基于规则的标记器，适应不同语言的特定需求。
RegexpTagger增强：新增了定义匹配组的功能，使基于正则表达式的标注更加精确和强大。
关系分类器优化：增加了过滤长句子和截断上下文的功能，显著提升了处理长文本关系的效率。
文档加载改进：现在可以将完整文档作为Sentence对象加载，简化了文档级NLP任务的预处理流程。

数据集扩展

新版本增加了BarNER数据集，这是一个专门用于生物医学领域命名实体识别的资源，为医疗健康相关的NLP研究提供了更多可能性。

兼容性修复与性能优化

0.15.1版本解决了与PyTorch 2.6和最新SciPy版本的兼容性问题：

修复了模型加载机制，确保在PyTorch 2.6环境下正常工作
更新了SciPy相关代码，将过时的.A属性替换为toarray()方法
修正了文本回归模型的评估指标计算方式
修复了张量类型转换的相关问题

这些改进确保了Flair在最新Python科学计算生态中的稳定运行。

总结

Flair 0.15.1版本在保持框架易用性的同时，通过引入DeepNCM分类器等创新功能，进一步扩展了其应用场景。对文本处理流程的细化和性能优化，使得这个本就强大的NLP框架更加完善。无论是学术研究还是工业应用，这个版本都值得NLP从业者关注和升级。

A very simple framework for state-of-the-art Natural Language Processing (NLP)

项目地址：https://gitcode.com/gh_mirrors/fl/flair

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。