Presidio项目中SpacyNlpEngine继承类的正确初始化方法

2025-06-13 04:12:37作者：滕妙奇

An open-source framework for detecting, redacting, masking, and anonymizing sensitive data (PII) across text, images, and structured data. Supports NLP, pattern matching, and customizable pipelines.

项目地址：https://gitcode.com/GitHub_Trending/pr/presidio

在Microsoft开源的隐私数据识别工具Presidio中，SpacyNlpEngine是一个重要的NLP处理引擎组件。开发者在使用时可能会遇到需要自定义继承类的情况，而文档中关于继承SpacyNlpEngine的示例代码存在一个常见的Python初始化方法错误。

问题背景

当开发者需要创建一个继承自SpacyNlpEngine的自定义类时，文档中给出的示例代码使用了不正确的super调用方式。原始代码如下：

class LoadedSpacyNlpEngine(SpacyNlpEngine):
    def __init__(self, loaded_spacy_model):
        super.__init__()
        self.nlp = {"en": loaded_spacy_model}

这段代码在实际运行时会产生TypeError，提示"descriptor 'init' of 'super' object needs an argument"。

问题分析

这个错误的原因是Python中super()的正确用法。在Python3中，super()是一个内置函数，而不是属性或方法。正确的调用方式应该是：

super().__init__()

而不是：

super.__init__()

前者会正确地调用父类的初始化方法，而后者会尝试访问super对象的__init__描述符，导致参数缺失的错误。

解决方案

修正后的代码应该如下：

class LoadedSpacyNlpEngine(SpacyNlpEngine):
    def __init__(self, loaded_spacy_model):
        super().__init__()
        self.nlp = {"en": loaded_spacy_model}

这个修正确保了：

正确调用了父类SpacyNlpEngine的初始化方法
保持了原有的功能，即接受预加载的spaCy模型并存储在nlp字典中

实际应用场景

这种自定义NLP引擎的场景在Presidio中很常见，特别是当：

需要使用特定领域训练的spaCy模型
需要重用已经加载的模型实例以提高性能
需要对默认的NLP处理流程进行定制化修改

通过正确继承SpacyNlpEngine并初始化，开发者可以灵活地扩展Presidio的NLP处理能力，同时保持与框架其他部分的兼容性。

总结

在Python类继承中，正确使用super()函数初始化父类是基础但重要的知识点。Presidio文档中的这个小错误虽然简单，但可能会给不熟悉Python继承机制的开发者带来困惑。理解并正确应用super()的调用方式，可以帮助开发者更好地扩展和定制Presidio的NLP处理能力。

An open-source framework for detecting, redacting, masking, and anonymizing sensitive data (PII) across text, images, and structured data. Supports NLP, pattern matching, and customizable pipelines.

项目地址：https://gitcode.com/GitHub_Trending/pr/presidio

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

deepin linux kernel

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

AtomGit CLI （ag cli），AtomGit 命令行工具，参考 GitHub CLI (gh) 开发。目前 atomgit-cli 项目已在 AtomCode 的 Coding Plan 项目列表中

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook