79万+中文医疗对话数据集:打造AI问诊系统的终极资源库 📊
Chinese medical dialogue data中文医疗问答数据集是一个包含792099条真实医患对话记录的开源资源库,涵盖内科、外科、妇产科等6大科室,为AI医疗问答系统开发提供高质量中文语料支持。无论是医疗NLP研究还是智能问诊应用开发,这个免费数据集都能帮你快速构建专业级对话模型。
📁 数据集核心优势:3大亮点解析
1. 超大规模真实对话语料
数据集包含6个专科领域的医疗对话记录,其中:
- 内科(IM_内科):220606条问答对 🏥
- 妇产科(OAGD_妇产科):183751条问答对 🤰
- 外科(Surgical_外科):115991条问答对 🔪
- 男科、儿科、肿瘤科等共271751条记录
所有数据均来自真实医疗咨询场景,包含患者主诉、医生诊断、用药建议等完整对话流程,为模型训练提供贴近临床实际的语言素材。
2. 结构化数据格式设计
每个CSV文件采用统一数据结构:
department | title | question | answer
- 科室标签:精准标注对话所属专科领域
- 问题标题:简洁概括患者咨询核心
- 详细提问:完整记录患者症状描述
- 专业回答:包含诊断意见、治疗方案和健康建议
这种结构化设计使数据易于清洗、分类和标注,特别适合监督学习和知识图谱构建。
3. 即开即用的模型微调支持
数据集提供ChatGLM-6B微调示例,包含JSON格式的训练数据模板:
{
"instruction": "现在你是一个神经脑外科医生,请根据患者的问题给出建议:",
"input": "癫痫病能吃德巴金吗?",
"output": "德巴金是广谱抗癫痫药物...建议在医生指导下用药"
}
根据测试结果,使用LoRA(r=8)微调后的模型在BLEU-4评分上达到4.21,相比基础模型提升31%,证明数据集具备优异的模型训练效果。
🔬 数据文件深度解析
各专科数据文件速览
所有数据文件集中在Data_数据目录下,按科室分类存储:
- 男科数据:Data_数据/Andriatria_男科/男科5-13000.csv
- 儿科数据:Data_数据/Pediatric_儿科/儿科5-14000.csv
- 肿瘤科数据:Data_数据/Oncology_肿瘤科/肿瘤科5-10000.csv
每个CSV文件均采用UTF-8编码,可直接用Excel或Python pandas库读取处理。
数据处理工具推荐
数据集提供配套的数据预处理脚本:Data_数据/IM_内科/数据处理.py,包含:
- 文本清洗与去重
- 对话内容分词处理
- 医学实体识别标注
- 训练集/测试集划分
通过该脚本可快速将原始数据转换为模型训练所需格式,降低数据准备门槛。
💡 5大典型应用场景
1. 智能问诊机器人开发
基于真实对话训练的AI模型可准确理解患者症状描述,提供初步分诊建议。例如训练心血管科专属模型,能处理高血压、冠心病等常见疾病的咨询问答。
2. 医疗知识图谱构建
利用问答对中的病症-诊断-治疗关系,可构建专业医疗知识图谱,支持疾病关联分析和诊疗路径推荐。
3. 临床决策辅助系统
通过分析大量相似病例的诊疗方案,为年轻医生提供参考建议,提高诊断准确性和治疗规范性。
4. 患者教育内容生成
自动将专业医学知识转化为通俗易懂的健康建议,帮助患者更好理解病情和治疗方案。
5. 医疗NLP算法研究
作为标准测试集用于医疗对话系统评估,支持模型性能对比和算法创新验证。
🚀 快速上手:3步使用指南
1. 获取数据集
git clone https://gitcode.com/gh_mirrors/ch/Chinese-medical-dialogue-data
2. 数据文件浏览
推荐使用Excel或Python查看数据:
import pandas as pd
df = pd.read_csv("Data_数据/IM_内科/内科5000-33000.csv")
print(df.head()) # 查看数据结构
print(f"数据总量: {len(df)}条")
3. 模型训练建议
- 建议使用LoRA低秩适配技术进行微调
- 初始学习率设置为2e-4,batch size=16
- 医疗领域模型建议至少训练3个epoch
📊 模型微调效果对比
不同微调方法在ChatGLM-6B上的性能测试结果:
| 评估指标 | 基础模型 | P-Tuning V2 | LoRA (r=8) | LoRA-INT8 |
|---|---|---|---|---|
| BLEU-4 | 3.21 | 3.55 | 4.21 | 3.58 |
| Rouge-1 | 17.19 | 18.42 | 18.74 | 17.88 |
| 训练参数占比 | / | 0.20% | 0.06% | 0.06% |
数据来源:使用数据集1/30样本量进行的微调测试
🔚 结语:开启医疗AI开发之旅
Chinese medical dialogue data数据集为医疗人工智能开发提供了宝贵的中文语料资源。无论你是NLP研究者、医疗科技开发者还是学生,这个包含79万+专业对话的开源项目都能帮助你快速构建医疗对话系统。立即下载使用,探索智能医疗的无限可能!
提示:数据集遵循MIT许可证,允许商业和非商业用途,但建议在实际医疗应用中结合专业医生审核。
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00
请把这个活动推给顶尖程序员😎本次活动专为懂行的顶尖程序员量身打造,聚焦AtomGit首发开源模型的实际应用与深度测评,拒绝大众化浅层体验,邀请具备扎实技术功底、开源经验或模型测评能力的顶尖开发者,深度参与模型体验、性能测评,通过发布技术帖子、提交测评报告、上传实践项目成果等形式,挖掘模型核心价值,共建AtomGit开源模型生态,彰显顶尖程序员的技术洞察力与实践能力。00
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
MiniMax-M2.5MiniMax-M2.5开源模型,经数十万复杂环境强化训练,在代码生成、工具调用、办公自动化等经济价值任务中表现卓越。SWE-Bench Verified得分80.2%,Multi-SWE-Bench达51.3%,BrowseComp获76.3%。推理速度比M2.1快37%,与Claude Opus 4.6相当,每小时仅需0.3-1美元,成本仅为同类模型1/10-1/20,为智能应用开发提供高效经济选择。【此简介由AI生成】Python00
Qwen3.5Qwen3.5 昇腾 vLLM 部署教程。Qwen3.5 是 Qwen 系列最新的旗舰多模态模型,采用 MoE(混合专家)架构,在保持强大模型能力的同时显著降低了推理成本。00- RRing-2.5-1TRing-2.5-1T:全球首个基于混合线性注意力架构的开源万亿参数思考模型。Python00