Presidio项目中Transformers识别器的正确使用方式
问题背景
在使用微软开源的隐私数据识别工具Presidio时,开发者可能会遇到TransformersRecognizer类的使用问题。特别是当尝试使用GLiNER等预训练模型进行实体识别时,可能会遇到"TypeError: SpacyRecognizer.init() got an unexpected keyword argument 'model_path'"这样的错误。
问题根源分析
这个问题的根本原因在于Presidio项目中Transformers集成方式的多样性。Presidio提供了两种主要的方式来集成Transformers模型:
-
TransformersNlpEngine方式:这是官方推荐的标准集成方法,通过NLP引擎的方式将Transformers模型整合到Presidio的分析流程中。
-
自定义EntityRecognizer方式:当需要同时使用多个Transformers模型或有特殊需求时,可以通过创建自定义的实体识别器来包装Transformers模型。
解决方案详解
标准集成方法:TransformersNlpEngine
对于大多数使用场景,特别是只需要单一Transformers模型的情况,推荐使用TransformersNlpEngine。这种方法提供了更好的性能和更简单的配置方式:
from presidio_analyzer import AnalyzerEngine
from presidio_analyzer.nlp_engine import TransformersNlpEngine
nlp_engine = TransformersNlpEngine(
model_path="urchade/gliner_multi_pii-v1"
)
analyzer = AnalyzerEngine(nlp_engine=nlp_engine)
这种方式会自动处理模型的加载和推理过程,开发者只需要关注业务逻辑即可。
自定义识别器方法
当标准集成方法无法满足需求时,可以考虑创建自定义识别器。需要注意的是,Presidio核心库中的TransformersRecognizer实际上是继承自SpacyRecognizer的简化版本,并不直接支持model_path参数。
如果需要实现自定义的Transformers识别器,可以参考以下模式:
from presidio_analyzer import EntityRecognizer
class CustomTransformersRecognizer(EntityRecognizer):
def __init__(self, model_path, supported_entities):
super().__init__(supported_entities=supported_entities)
self.model = AutoModelForTokenClassification.from_pretrained(model_path)
self.tokenizer = AutoTokenizer.from_pretrained(model_path)
def analyze(self, text, entities, nlp_artifacts=None):
# 实现具体的分析逻辑
pass
关于GLiNER模型的特别说明
对于GLiNER这类专门用于隐私信息识别的预训练模型,Presidio提供了专门的集成方案。开发者可以直接使用预定义的GLiNER识别器,这种方式比通用的Transformers集成更加简单高效:
from presidio_analyzer import AnalyzerEngine
from presidio_analyzer.predefined_recognizers import GlinerRecognizer
gliner_recognizer = GlinerRecognizer()
analyzer = AnalyzerEngine()
analyzer.registry.add_recognizer(gliner_recognizer)
最佳实践建议
- 对于单一模型场景,优先考虑TransformersNlpEngine方式
- 需要多模型或特殊处理时,才考虑自定义识别器
- 使用GLiNER等专用模型时,直接使用对应的预定义识别器
- 注意不同Presidio版本间的API差异,特别是核心库与示例代码之间可能存在不一致
通过理解这些不同的集成方式和它们适用的场景,开发者可以更有效地利用Presidio结合Transformers模型进行隐私数据识别工作。
AutoGLM-Phone-9BAutoGLM-Phone-9B是基于AutoGLM构建的移动智能助手框架,依托多模态感知理解手机屏幕并执行自动化操作。Jinja00
Kimi-K2-ThinkingKimi K2 Thinking 是最新、性能最强的开源思维模型。从 Kimi K2 开始,我们将其打造为能够逐步推理并动态调用工具的思维智能体。通过显著提升多步推理深度,并在 200–300 次连续调用中保持稳定的工具使用能力,它在 Humanity's Last Exam (HLE)、BrowseComp 等基准测试中树立了新的技术标杆。同时,K2 Thinking 是原生 INT4 量化模型,具备 256k 上下文窗口,实现了推理延迟和 GPU 内存占用的无损降低。Python00
GLM-4.6V-FP8GLM-4.6V-FP8是GLM-V系列开源模型,支持128K上下文窗口,融合原生多模态函数调用能力,实现从视觉感知到执行的闭环。具备文档理解、图文生成、前端重构等功能,适用于云集群与本地部署,在同类参数规模中视觉理解性能领先。Jinja00
HunyuanOCRHunyuanOCR 是基于混元原生多模态架构打造的领先端到端 OCR 专家级视觉语言模型。它采用仅 10 亿参数的轻量化设计,在业界多项基准测试中取得了当前最佳性能。该模型不仅精通复杂多语言文档解析,还在文本检测与识别、开放域信息抽取、视频字幕提取及图片翻译等实际应用场景中表现卓越。00
GLM-ASR-Nano-2512GLM-ASR-Nano-2512 是一款稳健的开源语音识别模型,参数规模为 15 亿。该模型专为应对真实场景的复杂性而设计,在保持紧凑体量的同时,多项基准测试表现优于 OpenAI Whisper V3。Python00
GLM-TTSGLM-TTS 是一款基于大语言模型的高质量文本转语音(TTS)合成系统,支持零样本语音克隆和流式推理。该系统采用两阶段架构,结合了用于语音 token 生成的大语言模型(LLM)和用于波形合成的流匹配(Flow Matching)模型。 通过引入多奖励强化学习框架,GLM-TTS 显著提升了合成语音的表现力,相比传统 TTS 系统实现了更自然的情感控制。Python00
Spark-Formalizer-X1-7BSpark-Formalizer 是由科大讯飞团队开发的专用大型语言模型,专注于数学自动形式化任务。该模型擅长将自然语言数学问题转化为精确的 Lean4 形式化语句,在形式化语句生成方面达到了业界领先水平。Python00