Presidio项目中的DICOM图像脱敏引擎自定义分析器配置

2025-06-13 08:16:40作者：蔡怀权

An open-source framework for detecting, redacting, masking, and anonymizing sensitive data (PII) across text, images, and structured data. Supports NLP, pattern matching, and customizable pipelines.

项目地址：https://gitcode.com/GitHub_Trending/pr/presidio

在医疗影像数据处理领域，DICOM格式的图像脱敏是一个重要需求。微软开源的Presidio项目提供了强大的隐私数据识别和脱敏功能，其中DicomImageRedactorEngine专门用于处理DICOM图像中的敏感信息。

默认分析器与自定义需求

Presidio的DicomImageRedactorEngine默认使用spaCy模型进行命名实体识别(NER)。然而，在实际应用中，开发者可能需要使用其他NLP模型，如Flair或Transformers模型，来满足特定场景下的识别需求。

自定义分析器配置方法

通过AnalyzerEngine的灵活配置，我们可以轻松替换默认的spaCy模型。以下是完整的配置示例：

from presidio_analyzer import AnalyzerEngine
from presidio_analyzer.nlp_engine import TransformersNlpEngine, NerModelConfiguration
from presidio_image_redactor import ImageAnalyzerEngine, DicomImagePiiVerifyEngine

# 定义模型配置
model_config = [{
    "lang_code": "en", 
    "model_name": {
        "spacy": "en_core_web_sm",  # 基础spaCy模型用于分词等基础处理
        "transformers": "obi/deid_roberta_i2b2"  # 自定义Transformers模型
    }
}]

# 建立模型标签与Presidio实体类型的映射关系
model_to_presidio_entity_mapping = {
    "PER": "PERSON",
    "PERSON": "PERSON",
    "LOC": "LOCATION",
    "GPE": "LOCATION",
    "ORG": "ORGANIZATION",
    "AGE": "AGE",
    "ID": "ID",
    "EMAIL": "EMAIL",
    "DATE": "DATE_TIME",
    "PHONE": "PHONE_NUMBER"
}

# 配置NER模型参数
ner_model_configuration = NerModelConfiguration(
    labels_to_ignore=["O"],  # 忽略"O"标签(非实体)
    model_to_presidio_entity_mapping=model_to_presidio_entity_mapping
)

# 初始化NLP引擎
nlp_engine = TransformersNlpEngine(
    models=model_config,
    ner_model_configuration=ner_model_configuration
)

# 创建自定义分析器引擎
analyzer_engine = AnalyzerEngine(nlp_engine=nlp_engine)

# 构建图像分析器和DICOM验证引擎
image_analyzer = ImageAnalyzerEngine(analyzer_engine=analyzer_engine)
dicom_engine = DicomImagePiiVerifyEngine(image_analyzer_engine=image_analyzer)