Azure Health Deidentification 1.0.0 版本发布:医疗数据去标识化能力升级
Azure Health Deidentification 是 Azure SDK for Python 中专注于医疗健康数据隐私保护的组件,它为开发者提供了强大的去标识化功能,能够帮助医疗机构和健康科技公司安全地处理包含敏感信息的医疗数据。最新发布的 1.0.0 版本标志着该组件进入稳定阶段,带来了一系列重要的功能增强和接口优化。
核心功能改进
1. 定制化选项模型重构
新版本引入了两个重要的定制化选项模型:
DeidentificationCustomizationOptions:用于单次文本去标识化操作的配置DeidentificationJobCustomizationOptions:用于批量文档处理任务的配置
这两个模型新增了 surrogate_locale 字段,允许开发者指定替代文本的区域设置,这对于国际化应用场景尤为重要。同时,将原本独立的 redaction_format 字段整合到这些模型中,使配置更加集中和一致。
2. 存储位置控制增强
在 TargetStorageLocation 模型中新增了 overwrite 属性,这一改进解决了实际业务中常见的需求——当目标位置已存在同名文档时,开发者现在可以明确选择是否覆盖现有文件,为数据管道提供了更灵活的控制能力。
重大变更与迁移指南
1. 客户端方法重命名
为了更准确地反映方法功能,DeidentificationClient 中的方法名称进行了调整:
deidentify→deidentify_text:更明确地表示这是针对文本内容的操作begin_create_job→begin_deidentify_documents:更清晰地表达这是文档批量处理任务
2. 模型属性优化
多个模型的属性名称进行了调整以提高一致性:
DeidentificationContent.operation→operation_typeDeidentificationDocumentDetails.input→input_locationDeidentificationDocumentDetails.output→output_locationDeidentificationJob.name→job_nameDeidentificationJob.operation→operation_type
这些变更使属性命名更加语义化,便于开发者理解和使用。
3. 状态模型重构
将 OperationState 重命名为 OperationStatus,这一变更使模型名称更符合常规的命名约定,与大多数 Azure 服务的状态表示方式保持一致。
4. 存储路径表示方式统一
在 SourceStorageLocation 和 TargetStorageLocation 中,将 path 字段统一改为 location,这一变更消除了术语上的歧义,使接口更加一致。
实际应用建议
对于医疗健康领域的开发者,升级到 1.0.0 版本时需要注意以下几点:
-
批量处理任务:新的
outputPrefix行为不再默认包含job_name,开发者需要根据实际需求调整输出路径的构建逻辑。 -
结果处理:
TaggerResult模型中的path和location已被弃用,建议开发者检查相关代码并更新为使用新推荐的属性。 -
国际化支持:利用新增的
surrogate_locale字段可以更好地处理多语言医疗数据,确保替代文本符合目标用户的语言习惯。
这一版本的发布标志着 Azure Health Deidentification 组件在医疗数据隐私保护领域的成熟,为开发者提供了更加稳定、一致的 API 接口,同时增强了灵活性和控制能力,是构建符合 HIPAA 等医疗隐私法规应用的重要工具。
kernelopenEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。C042
MiniMax-M2.1从多语言软件开发自动化到复杂多步骤办公流程执行,MiniMax-M2.1 助力开发者构建下一代自主应用——全程保持完全透明、可控且易于获取。Python00
kylin-wayland-compositorkylin-wayland-compositor或kylin-wlcom(以下简称kywc)是一个基于wlroots编写的wayland合成器。 目前积极开发中,并作为默认显示服务器随openKylin系统发布。 该项目使用开源协议GPL-1.0-or-later,项目中来源于其他开源项目的文件或代码片段遵守原开源协议要求。C01
PaddleOCR-VLPaddleOCR-VL 是一款顶尖且资源高效的文档解析专用模型。其核心组件为 PaddleOCR-VL-0.9B,这是一款精简却功能强大的视觉语言模型(VLM)。该模型融合了 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型,可实现精准的元素识别。Python00
GLM-4.7GLM-4.7上线并开源。新版本面向Coding场景强化了编码能力、长程任务规划与工具协同,并在多项主流公开基准测试中取得开源模型中的领先表现。 目前,GLM-4.7已通过BigModel.cn提供API,并在z.ai全栈开发模式中上线Skills模块,支持多模态任务的统一规划与协作。Jinja00
agent-studioopenJiuwen agent-studio提供零码、低码可视化开发和工作流编排,模型、知识库、插件等各资源管理能力TSX0121
Spark-Formalizer-X1-7BSpark-Formalizer 是由科大讯飞团队开发的专用大型语言模型,专注于数学自动形式化任务。该模型擅长将自然语言数学问题转化为精确的 Lean4 形式化语句,在形式化语句生成方面达到了业界领先水平。Python00