embeddings 的项目扩展与二次开发

2025-06-14 22:42:27作者：幸俭卉

项目的基础介绍

本项目是纽约大学的研究人员发表在2016年AMIA临床研究信息学峰会（CRI）上的一篇论文的配套代码，题目为“学习医学概念的低维表示”。项目旨在通过大型医疗数据集学习诊断代码、程序代码、药物代码和实验室代码的低维表示，以帮助改善医疗数据的分析和理解。

项目的核心功能是提供了三种不同数据集的医学概念的低维嵌入表示，包括：

claims_codes_hs_300.txt.gz：基于近4百万人的2005年至2013年大型索赔数据集得到的ICD-9诊断和程序代码、NDC药物代码和LOINC实验室代码的嵌入。
stanford_cuis_svd_300.txt.gz：基于斯坦福医院和诊所19年数据集中的2000万份临床笔记得到的UMLS概念唯一标识符（CUIs）的嵌入。
DeVine_etal_200.txt.gz：基于348,566篇医学期刊摘要得到的UMLS CUIs的嵌入。

此外，项目还包含了用于评估和可视化这些嵌入表示的工具。

本项目主要使用了Python语言，依赖的框架或库包括：

项目的代码目录结构如下：

通过这些扩展和二次开发，本项目有望在医疗数据的分析和应用中发挥更大的作用。

登录后查看全文