如何构建智能医疗助手?79万+中文医疗对话数据集与ChatGLM-6B完整指南 💊
2026-01-16 10:27:28作者:幸俭卉
在医疗AI快速发展的今天,中文医疗对话数据集成为了训练智能医疗助手的核心资源。本项目提供了总计79万+条高质量医疗问答数据,涵盖内科、外科、妇产科、儿科、男科、肿瘤科六大科室,为医疗AI应用开发提供了坚实的数据基础。
📊 数据集规模与结构
这个中文医疗对话数据集包含了792,099条真实医疗问答记录,具体分布如下:
- 内科:Data_数据/IM_内科/内科5000-33000.csv - 220,606条
- 妇产科:Data_数据/OAGD_妇产科/妇产科6-28000.csv - 183,751条
- 儿科:Data_数据/Pediatric_儿科/儿科5-14000.csv - 101,602条
- 外科:Data_数据/Surgical_外科/外科5-14000.csv - 115,991条
- 男科:Data_数据/Andriatria_男科/男科5-13000.csv - 94,596条
- 肿瘤科:Data_数据/Oncology_肿瘤科/肿瘤科5-10000.csv - 75,553条
📝 数据格式详解
每个CSV文件都采用标准化的四列格式:
| department | title | question | answer |
|---|---|---|---|
| 心血管科 | 高血压患者能吃党参吗? | 我有高血压这两天女婿来的时候给我拿了些党参泡水喝... | 高血压病人可以口服党参的。党参有降血脂,降血压的作用... |
实际数据示例:
- 问题:"高血压患者能吃党参吗?"
- 回答:"高血压病人可以口服党参的。党参有降血脂,降血压的作用..."
🤖 ChatGLM-6B微调实战
项目在ChatGLM-6B模型上进行了全面的微调实验,采用了三种主流微调方法:
微调方法对比
| 方法 | 训练参数占比 | BLEU-4 | Rouge-1 | Rouge-2 | Rouge-l |
|---|---|---|---|---|---|
| P-Tuning V2 | 0.20% | 3.55 | 18.42 | 2.74 | 15.02 |
| LoRA | 0.06% | 4.21 | 18.74 | 3.56 | 16.61 |
| LoRA-INT8 | 0.06% | 3.58 | 17.88 | 3.10 | 15.84 |
数据转换处理
项目提供了Data_数据/IM_内科/数据处理.py 脚本,用于将原始CSV数据转换为适合模型训练的格式。
🎯 应用场景与价值
这个中文医疗对话数据集在多个场景中发挥着重要作用:
智能医疗问答系统
- 基于症状的初步诊断建议
- 药物使用咨询
- 疾病预防指导
医疗AI模型训练
- 医疗大语言模型微调
- 医疗知识图谱构建
- 症状-疾病关联分析
🚀 快速开始指南
1. 获取数据集
git clone https://gitcode.com/gh_mirrors/ch/Chinese-medical-dialogue-data
2. 数据预处理
使用提供的样例_内科5000-6000.csv 了解数据结构。
3. 模型微调
参考项目中的微调配置,选择合适的微调方法进行医疗AI模型训练。
💡 最佳实践建议
- 数据质量优先:选择高质量的问答对进行训练
- 领域适配:根据具体应用场景选择相应的科室数据
- 渐进式训练:从小规模数据开始,逐步增加训练量
- 评估指标:重点关注BLEU-4和Rouge-l指标
🌟 项目特色亮点
- 大规模真实数据:79万+条医疗问答记录
- 多科室覆盖:内科、外科、妇产科等六大科室
- 标准化格式:统一的四列数据结构
- 多微调方法:全面的模型优化方案
- 即开即用:完整的项目结构和数据处理工具
这个中文医疗对话数据集为医疗AI应用开发提供了宝贵的数据资源,结合ChatGLM-6B的强大能力,能够构建出真正实用的智能医疗助手,为大众健康保驾护航!🏥
登录后查看全文
热门项目推荐
相关项目推荐
kernelopenEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。C0100
baihu-dataset异构数据集“白虎”正式开源——首批开放10w+条真实机器人动作数据,构建具身智能标准化训练基座。00
mindquantumMindQuantum is a general software library supporting the development of applications for quantum computation.Python059
PaddleOCR-VLPaddleOCR-VL 是一款顶尖且资源高效的文档解析专用模型。其核心组件为 PaddleOCR-VL-0.9B,这是一款精简却功能强大的视觉语言模型(VLM)。该模型融合了 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型,可实现精准的元素识别。Python00
GLM-4.7GLM-4.7上线并开源。新版本面向Coding场景强化了编码能力、长程任务规划与工具协同,并在多项主流公开基准测试中取得开源模型中的领先表现。 目前,GLM-4.7已通过BigModel.cn提供API,并在z.ai全栈开发模式中上线Skills模块,支持多模态任务的统一规划与协作。Jinja00
AgentCPM-Explore没有万亿参数的算力堆砌,没有百万级数据的暴力灌入,清华大学自然语言处理实验室、中国人民大学、面壁智能与 OpenBMB 开源社区联合研发的 AgentCPM-Explore 智能体模型基于仅 4B 参数的模型,在深度探索类任务上取得同尺寸模型 SOTA、越级赶上甚至超越 8B 级 SOTA 模型、比肩部分 30B 级以上和闭源大模型的效果,真正让大模型的长程任务处理能力有望部署于端侧。Jinja00
最新内容推荐
项目优选
收起
deepin linux kernel
C
27
11
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
477
3.56 K
React Native鸿蒙化仓库
JavaScript
287
340
暂无简介
Dart
728
175
Ascend Extension for PyTorch
Python
287
320
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
849
446
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
235
98
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
10
1
TorchAir 支持用户基于PyTorch框架和torch_npu插件在昇腾NPU上使用图模式进行推理。
Python
450
180
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.28 K
705