79万+中文医疗对话数据集：打造AI问诊系统的终极资源库 📊

2026-02-05 04:49:21作者：田桥桑Industrious

Chinese medical dialogue data中文医疗问答数据集是一个包含792099条真实医患对话记录的开源资源库，涵盖内科、外科、妇产科等6大科室，为AI医疗问答系统开发提供高质量中文语料支持。无论是医疗NLP研究还是智能问诊应用开发，这个免费数据集都能帮你快速构建专业级对话模型。

📁 数据集核心优势：3大亮点解析

1. 超大规模真实对话语料

数据集包含6个专科领域的医疗对话记录，其中：

内科（IM_内科）：220606条问答对 🏥
妇产科（OAGD_妇产科）：183751条问答对 🤰
外科（Surgical_外科）：115991条问答对 🔪
男科、儿科、肿瘤科等共271751条记录

所有数据均来自真实医疗咨询场景，包含患者主诉、医生诊断、用药建议等完整对话流程，为模型训练提供贴近临床实际的语言素材。

2. 结构化数据格式设计

每个CSV文件采用统一数据结构：

department | title | question | answer

科室标签：精准标注对话所属专科领域
问题标题：简洁概括患者咨询核心
详细提问：完整记录患者症状描述
专业回答：包含诊断意见、治疗方案和健康建议

这种结构化设计使数据易于清洗、分类和标注，特别适合监督学习和知识图谱构建。

3. 即开即用的模型微调支持

数据集提供ChatGLM-6B微调示例，包含JSON格式的训练数据模板：

{
  "instruction": "现在你是一个神经脑外科医生，请根据患者的问题给出建议：",
  "input": "癫痫病能吃德巴金吗？",
  "output": "德巴金是广谱抗癫痫药物...建议在医生指导下用药"
}

根据测试结果，使用LoRA（r=8）微调后的模型在BLEU-4评分上达到4.21，相比基础模型提升31%，证明数据集具备优异的模型训练效果。

🔬 数据文件深度解析

各专科数据文件速览

所有数据文件集中在Data_数据目录下，按科室分类存储：

男科数据：Data_数据/Andriatria_男科/男科5-13000.csv
儿科数据：Data_数据/Pediatric_儿科/儿科5-14000.csv
肿瘤科数据：Data_数据/Oncology_肿瘤科/肿瘤科5-10000.csv

每个CSV文件均采用UTF-8编码，可直接用Excel或Python pandas库读取处理。

数据处理工具推荐

数据集提供配套的数据预处理脚本：Data_数据/IM_内科/数据处理.py，包含：

文本清洗与去重
对话内容分词处理
医学实体识别标注
训练集/测试集划分

通过该脚本可快速将原始数据转换为模型训练所需格式，降低数据准备门槛。

💡 5大典型应用场景

1. 智能问诊机器人开发

基于真实对话训练的AI模型可准确理解患者症状描述，提供初步分诊建议。例如训练心血管科专属模型，能处理高血压、冠心病等常见疾病的咨询问答。

2. 医疗知识图谱构建

利用问答对中的病症-诊断-治疗关系，可构建专业医疗知识图谱，支持疾病关联分析和诊疗路径推荐。

3. 临床决策辅助系统

通过分析大量相似病例的诊疗方案，为年轻医生提供参考建议，提高诊断准确性和治疗规范性。

4. 患者教育内容生成

自动将专业医学知识转化为通俗易懂的健康建议，帮助患者更好理解病情和治疗方案。

5. 医疗NLP算法研究

作为标准测试集用于医疗对话系统评估，支持模型性能对比和算法创新验证。

🚀 快速上手：3步使用指南

1. 获取数据集

git clone https://gitcode.com/gh_mirrors/ch/Chinese-medical-dialogue-data

2. 数据文件浏览

推荐使用Excel或Python查看数据：

import pandas as pd
df = pd.read_csv("Data_数据/IM_内科/内科5000-33000.csv")
print(df.head())  # 查看数据结构
print(f"数据总量: {len(df)}条")

3. 模型训练建议

建议使用LoRA低秩适配技术进行微调
初始学习率设置为2e-4，batch size=16
医疗领域模型建议至少训练3个epoch

📊 模型微调效果对比

不同微调方法在ChatGLM-6B上的性能测试结果：

评估指标	基础模型	P-Tuning V2	LoRA (r=8)	LoRA-INT8
BLEU-4	3.21	3.55	4.21	3.58
Rouge-1	17.19	18.42	18.74	17.88
训练参数占比	/	0.20%	0.06%	0.06%

数据来源：使用数据集1/30样本量进行的微调测试

🔚 结语：开启医疗AI开发之旅

Chinese medical dialogue data数据集为医疗人工智能开发提供了宝贵的中文语料资源。无论你是NLP研究者、医疗科技开发者还是学生，这个包含79万+专业对话的开源项目都能帮助你快速构建医疗对话系统。立即下载使用，探索智能医疗的无限可能！

提示：数据集遵循MIT许可证，允许商业和非商业用途，但建议在实际医疗应用中结合专业医生审核。

Chinese-medical-dialogue-data

Chinese medical dialogue data 中文医疗对话数据集

项目地址：https://gitcode.com/gh_mirrors/ch/Chinese-medical-dialogue-data

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

TSX

1.13 K

271