Presidio中调整SpacyRecognizer默认置信度阈值的方法

2025-06-13 19:23:00作者：秋泉律Samson

An open-source framework for detecting, redacting, masking, and anonymizing sensitive data (PII) across text, images, and structured data. Supports NLP, pattern matching, and customizable pipelines.

项目地址：https://gitcode.com/GitHub_Trending/pr/presidio

背景介绍

Presidio是微软开源的隐私数据识别和保护工具，其中的Analyzer模块负责识别文本中的敏感信息。SpacyRecognizer是Presidio内置的一个基于Spacy NLP库的实体识别器，默认情况下会给所有识别到的实体分配0.85的置信度分数。

问题分析

在实际应用中，开发者可能需要调整这个默认分数，主要有以下两种场景：

需要降低置信度阈值以识别更多潜在敏感信息
使用多个SpacyRecognizer实例时，需要通过分数控制识别结果的优先级

解决方案

通过Presidio的NerModelConfiguration类可以灵活配置SpacyRecognizer的各项参数，包括默认分数。以下是具体实现方法：

from presidio_analyzer import AnalyzerEngine
from presidio_analyzer.nlp_engine import SpacyNlpEngine, NerModelConfiguration

# 配置使用的Spacy模型
model_config = [{"lang_code": "en", "model_name": "en_core_web_lg"}]

# 创建NLP模型配置，设置默认分数为0.6
ner_model_configuration = NerModelConfiguration(default_score=0.6)

# 使用自定义配置创建Spacy NLP引擎
spacy_nlp_engine = SpacyNlpEngine(
    models=model_config,
    ner_model_configuration=ner_model_configuration
)

# 创建分析器引擎
analyzer = AnalyzerEngine(nlp_engine=spacy_nlp_engine)

高级配置

NerModelConfiguration类还支持更多配置选项：

实体映射：将Spacy识别的实体类型映射到Presidio定义的实体类型
低置信度阈值：设置低置信度实体的分数
实体过滤：指定要返回的实体类型

这些配置可以帮助开发者更精细地控制实体识别行为，满足不同场景下的隐私保护需求。

最佳实践

对于高敏感场景，建议设置较高的默认分数以减少误报
在初步扫描阶段，可以设置较低分数以捕获更多潜在敏感信息
使用多个SpacyRecognizer时，通过不同分数控制优先级

通过合理配置这些参数，开发者可以构建更加灵活和精确的隐私数据识别系统。

An open-source framework for detecting, redacting, masking, and anonymizing sensitive data (PII) across text, images, and structured data. Supports NLP, pattern matching, and customizable pipelines.

项目地址：https://gitcode.com/GitHub_Trending/pr/presidio

登录后查看全文

最新内容推荐

AcFunDown视频下载工具完全指南还在为数字笔记抓狂？这款开源神器让手写批注效率提升300%Windows笔记本电池健康管理全指南：从根源解决电池损耗问题 gmx_MMPBSA分子间相互作用索引错误的深度诊断与解决 Axure RP 11 本地化方案：Mac中文界面优化与原型设计工具汉化全指南如何高效获取教育资源？这款工具让教材下载效率提升80%视频元数据深度编辑：专业技巧与案例网盘直链下载技术解析与应用指南如何用DeepSeek-R1推理模型提升复杂任务解决能力：完整指南 5个突破瓶颈技巧：硬件优化工具让你的电脑性能提升30%

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

deepin linux kernel

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

AtomGit CLI （ag cli），AtomGit 命令行工具，参考 GitHub CLI (gh) 开发。目前 atomgit-cli 项目已在 AtomCode 的 Coding Plan 项目列表中

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook