MedicalGPT项目发布v2.4.0版本：GRPO训练方法与DeepSeek-V3模型支持

2025-06-14 00:07:13作者：裴锟轩Denise

MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型，实现了包括增量预训练(PT)、有监督微调(SFT)、RLHF、DPO、ORPO、GRPO。

项目地址：https://gitcode.com/gh_mirrors/me/MedicalGPT

MedicalGPT是一个专注于医疗领域的开源语言模型项目，旨在通过先进的自然语言处理技术为医疗行业提供智能化的文本处理能力。该项目持续迭代更新，不断引入前沿的AI技术来提升模型性能。

在最新发布的v2.4.0版本中，MedicalGPT带来了两项重要更新：GRPO训练方法的引入以及对DeepSeek-V3和DeepSeek-R1模型的支持。这些更新显著提升了模型的训练效率和性能表现。

GRPO训练方法：纯RL方法实现"aha moment"

GRPO（Gradient-based Reinforcement Policy Optimization）是一种基于梯度的强化学习策略优化方法，这是MedicalGPT项目首次引入这种训练方法。GRPO的核心优势在于它能够通过纯粹的强化学习方法实现所谓的"aha moment"——即模型在训练过程中突然获得显著性能提升的关键时刻。

传统的强化学习方法通常需要复杂的奖励设计和大量的训练样本，而GRPO通过优化策略梯度，使得模型能够更高效地从反馈中学习。这种方法特别适合医疗领域，因为医疗文本处理往往需要精确的专业知识和上下文理解能力。

开发者可以通过项目提供的run_grpo.sh脚本快速体验GRPO训练方法，这为研究人员和开发者提供了一个便捷的工具来探索强化学习在医疗语言模型中的应用潜力。

DeepSeek-V3和DeepSeek-R1模型支持

v2.4.0版本的另一个重要更新是增加了对DeepSeek-V3和DeepSeek-R1模型的支持。DeepSeek系列模型是近年来表现优异的中文语言模型，特别是在专业领域文本处理方面展现出强大的能力。

DeepSeek-R1模型采用了创新的架构设计，在医疗文本理解、生成和推理任务中表现出色。MedicalGPT项目通过引入template_name=deepseek3模板，使得开发者可以方便地调用这些模型进行医疗领域的特定任务。

这种模型支持不仅扩展了MedicalGPT的技术栈，也为医疗AI应用提供了更多可能性。开发者现在可以根据具体需求，选择最适合的模型架构来处理医疗文本数据。

技术意义与应用前景

MedicalGPT v2.4.0版本的这两项更新具有重要的技术意义。GRPO训练方法的引入代表了项目在训练算法上的前沿探索，而DeepSeek模型的支持则体现了项目在模型架构上的开放性。这种双管齐下的策略使得MedicalGPT能够持续保持在医疗AI领域的技术领先地位。

在实际应用方面，这些更新将显著提升医疗文本处理的效率和质量。例如，在医疗问答系统、病历自动生成、医学文献摘要等场景中，新版本的表现预计会有明显提升。特别是GRPO训练方法可能带来的"aha moment"，有望解决医疗领域数据标注成本高、专业性强等挑战。

MedicalGPT项目通过持续的版本迭代，正在构建一个功能强大且易于使用的医疗AI平台。v2.4.0版本的发布标志着该项目在训练方法和模型支持方面又迈出了重要一步，为医疗行业的智能化转型提供了有力的技术支撑。

MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型，实现了包括增量预训练(PT)、有监督微调(SFT)、RLHF、DPO、ORPO、GRPO。

项目地址：https://gitcode.com/gh_mirrors/me/MedicalGPT

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

昇腾LLM分布式训练框架