如何构建智能医疗助手？79万+中文医疗对话数据集与ChatGLM-6B完整指南 💊

2026-01-16 10:27:28作者：幸俭卉

在医疗AI快速发展的今天，中文医疗对话数据集成为了训练智能医疗助手的核心资源。本项目提供了总计79万+条高质量医疗问答数据，涵盖内科、外科、妇产科、儿科、男科、肿瘤科六大科室，为医疗AI应用开发提供了坚实的数据基础。

📊 数据集规模与结构

这个中文医疗对话数据集包含了792,099条真实医疗问答记录，具体分布如下：

内科：Data_数据/IM_内科/内科5000-33000.csv - 220,606条
妇产科：Data_数据/OAGD_妇产科/妇产科6-28000.csv - 183,751条
儿科：Data_数据/Pediatric_儿科/儿科5-14000.csv - 101,602条
外科：Data_数据/Surgical_外科/外科5-14000.csv - 115,991条
男科：Data_数据/Andriatria_男科/男科5-13000.csv - 94,596条
肿瘤科：Data_数据/Oncology_肿瘤科/肿瘤科5-10000.csv - 75,553条

📝 数据格式详解

每个CSV文件都采用标准化的四列格式：

department	title	question	answer
心血管科	高血压患者能吃党参吗？	我有高血压这两天女婿来的时候给我拿了些党参泡水喝...	高血压病人可以口服党参的。党参有降血脂，降血压的作用...

实际数据示例：

问题："高血压患者能吃党参吗？"
回答："高血压病人可以口服党参的。党参有降血脂，降血压的作用..."

🤖 ChatGLM-6B微调实战

项目在ChatGLM-6B模型上进行了全面的微调实验，采用了三种主流微调方法：

微调方法对比

方法	训练参数占比	BLEU-4	Rouge-1	Rouge-2	Rouge-l
P-Tuning V2	0.20%	3.55	18.42	2.74	15.02
LoRA	0.06%	4.21	18.74	3.56	16.61
LoRA-INT8	0.06%	3.58	17.88	3.10	15.84

数据转换处理

项目提供了Data_数据/IM_内科/数据处理.py 脚本，用于将原始CSV数据转换为适合模型训练的格式。

🎯 应用场景与价值

这个中文医疗对话数据集在多个场景中发挥着重要作用：

智能医疗问答系统

基于症状的初步诊断建议
药物使用咨询
疾病预防指导

医疗AI模型训练

医疗大语言模型微调
医疗知识图谱构建
症状-疾病关联分析

🚀 快速开始指南

1. 获取数据集

git clone https://gitcode.com/gh_mirrors/ch/Chinese-medical-dialogue-data

2. 数据预处理

使用提供的样例_内科5000-6000.csv 了解数据结构。

3. 模型微调

参考项目中的微调配置，选择合适的微调方法进行医疗AI模型训练。

💡 最佳实践建议

数据质量优先：选择高质量的问答对进行训练
领域适配：根据具体应用场景选择相应的科室数据
渐进式训练：从小规模数据开始，逐步增加训练量
评估指标：重点关注BLEU-4和Rouge-l指标

🌟 项目特色亮点

大规模真实数据：79万+条医疗问答记录
多科室覆盖：内科、外科、妇产科等六大科室
标准化格式：统一的四列数据结构
多微调方法：全面的模型优化方案
即开即用：完整的项目结构和数据处理工具

这个中文医疗对话数据集为医疗AI应用开发提供了宝贵的数据资源，结合ChatGLM-6B的强大能力，能够构建出真正实用的智能医疗助手，为大众健康保驾护航！🏥

Chinese-medical-dialogue-data

Chinese medical dialogue data 中文医疗对话数据集

项目地址：https://gitcode.com/gh_mirrors/ch/Chinese-medical-dialogue-data

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

235

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

torchair

TorchAir 支持用户基于PyTorch框架和torch_npu插件在昇腾NPU上使用图模式进行推理。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.28 K

705

如何构建智能医疗助手？79万+中文医疗对话数据集与ChatGLM-6B完整指南 💊

📊 数据集规模与结构

📝 数据格式详解