使用Synthea生成特定疾病模块患者的实践指南

2025-07-01 14:49:54作者：冯梦姬Eddie

背景介绍

Synthea作为开源的合成患者数据生成工具，能够模拟真实患者的完整医疗记录。在实际应用中，研究人员经常需要生成具有特定疾病特征的患者数据，例如仅包含心房颤动(Atrial Fibrillation)的患者记录。本文将详细介绍在Synthea中实现这一需求的正确方法。

常见误区分析

许多用户尝试通过以下方式生成特定疾病患者：

仅指定疾病模块运行：如-m *fibrillation*
注释掉其他模块：如Lifecycle、Cardiovascular Disease等
直接修改疾病模块文件

这些方法通常会产生不理想的结果，主要因为：

Synthea的模块设计是相互关联的，疾病发展需要基础生理过程支持
单纯运行一个疾病模块仍会触发相关的基础医疗事件记录
直接修改核心模块会影响系统稳定性

正确实现方法

方法一：使用M特性

Synthea提供了专门的"M"特性用于生成特定疾病患者：

./run_synthea -g M -a 60-60 -m *fibrillation* -p 1

关键参数说明：

-g：指定性别
-a：设置年龄范围
-m：指定目标疾病模块
-p：生成患者数量

此方法会优先考虑满足指定疾病条件的患者生成。

方法二：使用Keep Patients机制（推荐）

更可靠的方法是使用Synthea的"Keep Patients"功能：

创建独立的keep模块(json文件)，例如keep_af.json：

{
  "name": "Keep Atrial Fibrillation Patients",
  "states": {
    "Initial": {
      "type": "Initial"
    },
    "CheckCondition": {
      "type": "ConditionOnset",
      "target_encounter": null,
      "codes": [
        {
          "system": "SNOMED-CT",
          "code": "49436004",
          "display": "Atrial fibrillation"
        }
      ],
      "transition": {
        "condition_met": "Keep",
        "condition_not_met": "Reject"
      }
    },
    "Keep": {
      "type": "Terminal"
    },
    "Reject": {
      "type": "Terminal"
    }
  }
}

运行命令时指定keep模块：

./run_synthea -k path/to/keep_af.json -p 100

技术原理

Keep Patients机制的工作流程：

系统首先生成完整医疗记录的患者
然后应用keep模块中的条件检查
只有满足条件的患者才会被保留
不满足条件的患者会被丢弃并重新生成

这种方法确保了：

患者数据的完整性和合理性
疾病发展的自然病程
相关并发症和治疗的完整性

最佳实践建议

对于常见疾病，优先使用M特性
对于罕见病或复杂条件，使用Keep Patients机制
适当调整generate.max_attempts_to_keep_patient配置值
结合年龄、性别等人口统计学参数提高成功率
保持核心模块的完整性，避免直接修改

常见问题解决

若遇到"Failed to produce a matching patient"错误，建议：

检查疾病代码是否正确
确认年龄范围与疾病发病年龄匹配
增加尝试次数参数
简化keep条件，逐步增加复杂度

通过以上方法，研究人员可以高效地生成符合特定疾病特征的合成患者数据，同时保证数据的临床合理性和完整性。

synthea

Synthetic Patient Population Simulator

项目地址：https://gitcode.com/gh_mirrors/sy/synthea

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

455

437

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

使用Synthea生成特定疾病模块患者的实践指南

背景介绍

常见误区分析

正确实现方法

方法一：使用M特性

方法二：使用Keep Patients机制（推荐）

技术原理

最佳实践建议

常见问题解决

热门内容推荐

最新内容推荐

项目优选

使用Synthea生成特定疾病模块患者的实践指南

背景介绍

常见误区分析

正确实现方法

方法一：使用M特性

方法二：使用Keep Patients机制（推荐）

技术原理

最佳实践建议

常见问题解决

相关内容推荐

热门内容推荐

最新内容推荐

项目优选