三、eICU-CRD数据集的获取方式

eICU-CRD数据集的下载页面地址为https://physionet.org/content/eicu-crd/2.0/

获取数据之前需要取得麻省理工大学附属数据相关课程的合格证书,之后在PhysioNet上注册账号,提交证书并进行资格认证申请,在审核通过后方可进行下载。详细的步骤说明可见https://eicu-crd.mit.edu/gettingstarted/access/

数据集共有31个csv格式的文件分别是'admissionDrug.csv', 'admissionDx.csv','allergy.csv','apacheApsVar.csv','apachePatientResult.csv','apachePredVar.csv','carePlanCareProvider.csv','carePlanEOL.csv','carePlanGeneral.csv','carePlanGoal.csv','carePlanInfectiousDisease.csv','customLab.csv','diagnosis.csv','hospital.csv','infusionDrug.csv','intakeOutput.csv','lab.csv','medication.csv','microLab.csv','note.csv','nurseAssessment.csv','nurseCare.csv','nurseCharting.csv','pastHistory.csv','patient.csv','physicalExam.csv','respiratoryCare.csv','respiratoryCharting.csv','treatment.csv', 'vitalAperiodic.csv', 'vitalPeriodic.csv'。

这些表格涵盖了病人住院期间多个维度的详细信息详细说明文档可见https://eicu-crd.mit.edu/eicutables/admissiondrug/,接下来我们将逐个展开介绍。

GCT论文处理方式:patient, admissionDx, diagnosis, treatment CSV files

Overview and Usage Guidelines

Step-by-step to train the model

Clone the repository.Request access to the eICU dataset from eICU website.

Note that you are required to participate in the CITI training.Download the patient, admissionDx, diagnosis, treatment CSV files.Generate TFRecords using eicu_samples/process_eicu.py.

python process_eicu.py By default, this will generate 5 randomly sampled sets of train/validation/test data.Train model using train.py

python train.py .

Implementation detail

We implement the following files to run the model:

train.py

This file is the entry point for training the model. Model is trained usinv TensorFlow Estimator.It is currently written to train the model for readmission prediction. To change the task to mortality prediction, set the label_key to "label.readmission".graph_convolutional_transformer.py

This file contains the Graph Convolutional Transformer implementation, along with input_fn and model_fn to be used by TensorFlow Estimator.eicu_samples/process_eicu.py

This file preprocesses Philips eICU Collaborative Dataset in order to obtain TFRecords of SequenceExamples that can be used to test the model.synthetic_samples/process_synthetic.py

This file generates TFRecords of synthetic SequenceExamples. If you are interested in replicating synthetic experiments in the paper, please use this script to generate synthetic samples. However, the source code graph_convolutional_transformer.py also needs modifications as it is currently written for binary prediction tasks only.To use process_synthetic.py, first download visit_list.p from the binary release, then execute python process_synthetic.py By default, this will generate 5 randomly sampled sets of train/validation/test data.

GCT实验所用eICU四字段说明:

patient

patient表包含住院和ICU住院的病人统计信息以及入院和出院详细信息,详情请见表25。

序号 特征 数值类型 备注 1 patientunitstayid 数值型 病人的全局唯一标识符 2 patienthealthsystemstayid 数值型 病人住院期间的代理标识符 3 gender 字符型 病人性别 4 age 数值型 病人的完整年龄。如果病人超过 89 岁,请指定“> 89” 5 ethnicity 字符型 病人的种族 6 hospitalid 数值型 与病人单位住院相关的医院的代理键 7 wardid 数值型 与病人单位住院相关的病房的代理键 8 apacheadmissiondx 字符型 病人单位住院的全路径入院诊断 9 admissionheight 数值型 病人入院身高 10 hospitaladmittime24 数值型 24小时入院时间 11 hospitaladmitoffset 数值型 从入院到病人进入ICU的分钟数 12 hospitaladmitsource 字符型 病人入院的位置 13 hospitaldischargeyear 数值型 出院日期年份 14 hospitaldischargetime24 数值型 出院事件发生时的 24 小时格式时间 15 hospitaldischargeoffset 数值型 从入院到病人出院的分钟数 16 hospitaldischargelocation 字符型 病人出院地点 17 hospitaldischargestatus 字符型 指定病人出院时的状况 18 unittype 字符型 ICU病房类型 19 unitadmittime24 数值型 进入ICU发生时间的 24 小时格式时间 20 unitadmitsource 字符型 病人入院的位置 21 unitvisitnumber 数值型 标识病人的就诊次数 22 unitstaytype 字符型 病人单位逗留类型 23 admissionweight 数值型 病人入院体重 24 dischargeweight 数值型 单位出院时的病人体重 25 unitdischargetime24 数值型 离开ICU发生时间的 24 小时格式的时间 26 unitdischargeoffset 数值型 从进入ICU到病人出院的分钟数 27 unitdischargelocation 字符型 病人出院位置 28 unitdischargestatus 字符型 指定病人离开时的状况 29 uniquepid 字符型 唯一病人的 ID

表25  patient表的特征和含义

admissiondx表

包含根据APACHE评分标准以及进入ICU的初步诊断。这部分信息在病人病历中填写。在入院后的固定时间内,护理人员不能更新该表,详细信息请见表2。

序号 特征 数值类型 备注 1 admissiondxid 数值型 住院诊断的代理标识符 2 patientunitstayid 数值型 病人的全局唯一标识符 3 admitdxenteredoffset 数值型 从进入ICU病房到输入入院诊断的分钟数 4 admitdxpath 字符型 入院诊断项目的完整路径 5 admitdxname 字符型 入院诊断项目的名称 6 admitdxtext 字符型 入院诊断详细值

表2  admissiondx表的特征和含义

diagnosis

diagnosis表包含医疗记录的主动诊断/治疗部分中记录的每个病人的诊断列表。相应的国际疾病分类代码(ICD,International Classification of Diseases)也载于该表。这对于确定在ICU住院期间是否记录了某些疾病,以及在病人ICU住院的哪个时间点记录了这些诊断是很有用的,详细内容请见表13。

序号 特征 数值类型 备注 1 diagnosisid 数值型 诊断的代理标识符 2 patientunitstayid 数值型 病人全局唯一标识符 3 activeupondischarge 字符型 表示出院时诊断是否有效 4 diagnosisoffset 数值型 从进入ICU病房到输入诊断的分钟数 5 diagnosisstring 字符型 在 eCareManager 中选择的诊断的完整路径字符串 6 icd9code 字符型 用于诊断的 ICD代码 7 diagnosispriority 字符型 选项列表值,表示诊断是否标记

表13  diagnosis表的特征和含义

treatment表

允许用户以一种结构化的格式记录病人具体的治疗信息,详细信息请见表29。

序号 特征 数值类型 备注 1 treatmentid 数值型 治疗表的代理标识符 2 patientunitstayid 数值型 病人的全局唯一标识符 3 treatmentoffset 数值型 从进入ICU病房到确认治疗手段的分钟数 4 treatmentstring 字符型 治疗手段路径 5 activeupondischarge 字符型 表示出院时治疗是否有效

表29  treatment表的特征和含义

MIMIC IV数据库和eICU

MIMIC IV数据库是面向全球科研人员的可免费获取临床数据的公共数据库,数据库收集了美国马塞诸塞州波士顿贝斯以色列女执事医疗中心收治的从2008年至2019年超过38万名患者的临床数据,其中记录了患者的人口统计学信息、实验室检查、用药情况、生命体征、手术操作、疾病诊断、药物管理、生存状态等详细信息。

eICU-CRD数据库发布旨在MIMIC-Ⅲ成功建立的基础上,通过从多个中心医疗机构提供数据来扩大研究范围。eICU数据库由美国众多医院的ICU病房数据组成,目前版本是v2.0,于2018年5月17日发布,涵盖了2014年和2015年入住重症监护病房的200000多例患者的常规数据,收集了大量高质量的临床信息,包括生命体征、护理计划、疾病严重程度、诊断信息、治疗信息等,很好地解决了医疗人员缺少大数据进行临床研究的现状。

MIMIC-III医疗信息学数据集详解

数据科学与分析 2022-10-28 12:16 

原文:MIMIC-III医疗信息学数据集详解

MIMIC-III (Medical Information Mart for Intensive Care III)由麻省理工学院计算生理学实验室构建。它是一个大型、免费的数据集,由4万多名病人的健康数据信息构成。这些病人来自Beth Israel Deaconess Medical Center的ICU,时间为2001年至2012年。

该数据集主要包括了人口统计数据(demographics)、在病床进行的生命体征测量(每小时约1个数据点)、实验室检查结果、治疗(procedures)、药物、护理人员工作记录、影像报告、死亡信息(包括院内和院外)等信息。

该数据集可用于支持广泛的研究工作,包括流行病学、临床决策规则优化、医疗电子工具开发。它具有三个显著的优点:可供全世界研究者广泛使用;涵盖多元化且数据庞大的ICU患者群体;包括大量的时序数据,包括实验室检查结果、电子文档、临床监测数据。

该数据集共包括26张表格,可划分为五类,分别如下:

第一类,字典信息数据表

1. d_cpt

2. d_icd_diagnoses

3. d_icd_procedures

4. d_items

5. d_labitems

第二类,患者及其入院情况的信息表

1. admissions

2. callout

3. icustays

4. patients

5. services

6. transfers

第三类,在重症监护病房中收集的患者数据信息表

1. caregivers  

2. chartevents

3. datetimeevents

4. inputevents_cv

5. inputevens_mv

6. noteevents

7. outputevents

8. procedureevents_mv

第四类,医院记录系统收集的数据信息表

1. cpteevnts

2. diagnoses_icd

3. drgcodes

4. labevents

5. microbiologyevents

6. prescriptions

7. procedures_icd

为帮助研究人员尽快熟悉MIMIC-III数据集,我们对该数据集的所有数据表和字段进行了初步的解析说明。此外,我们为每个数据表抽取了100条样例数据,以便大家熟悉数据形式。此解析说明和样例数据,由齐鲁工业大学(山东省科学院)自然语言处理与认知计算课题组张鑫、魏斯博、张国标、赵直倬、付新月同学,在鹿文鹏教授指导下,共同整理完成。如果有需要,请随时联系鹿文鹏获取,邮箱:wenpeng.lu@qlu.edu.cn。学术水平有限,若有疏忽,敬请批评指正!

后附数据表结构解析,如下:

(一)字典信息数据表

1.表名:d_cpt

官方说明地址:

https://mit-lcp.github.io/mimic-schema-spy/tables/d_cpt.html

https://mimic.mit.edu/docs/iii/tables/d_cpt/

表来源:Online definitions(在线定义)

表内容:CPT代码的高级定义

表行数:134

表间联系:无

2.表名:d_icd_diagnoses

官方说明地址:

https://mit-lcp.github.io/mimic-schema-spy/tables/d_icd_diagnoses.html

https://mimic.mit.edu/docs/iii/tables/d_icd_diagnoses/

表来源:Online sources

表内容: 《国际疾病分类词典》第9版(诊断)

表行数: 14,710

表间联系: icd9_code与表diagnoses_icd表中的icd9_code关联

3.表名:d_icd_procedures

官方说明地址:

https://mit-lcp.github.io/mimic-schema-spy/tables/d_icd_procedures.html

https://mimic.mit.edu/docs/iii/tables/d_icd_procedures/

表来源:Online sources

表内容:ICD医疗过程词典表

表行数:3898

表间联系:通过icd9_code与procedures_icd表相连

4.表名:d_items

官方说明地址:

https://mit-lcp.github.io/mimic-schema-spy/tables/d_items.html

https://mimic.mit.edu/docs/iii/tables/d_items/

表来源:CareVue and Metavision ICU databases

表内容:ICU数据库中所有items的定义表。D_ITEMS来自两个不同的 ICU数据库。如果LINKSTO列为null,则数据当前不可用,但计划用于将来的版本。

表间联系:通过itemid与chartevents、datetimeevents、inputevents_mv、outputevents、procedureevents_mv、microbiologyevents表相关。

5.表名:d_labitems

官方说明地址:

https://mit-lcp.github.io/mimic-schema-spy/tables/d_labitems.html

https://mimic.mit.edu/docs/iii/tables/d_labitems

表来源:Hospital database

表内容:实验室检测相关items的字典

表行数:753

表间联系:通过itemid与labevents表相连

(二)患者及其入院情况的信息表

1.表名:admissions

官方说明地址:

https://mit-lcp.github.io/mimic-schema-spy/tables/admissions.html

https://mimic.mit.edu/docs/iii/tables/admissions/

表来源:Hospital database

表内容:患者入院信息

表行数:58976

表间联系:通过hadm_id与patients、callout、chartevents、cptevents、datetimeevents、diagnoses_icd、drgcodes、icustays、inputevents_cv、inputevents_mv、labevents、microbiologyevents、noteevents、outputevents、prescriptions、procedureevents_mv、procedures_icd、services、transfers表相关;通过subject_id与patients表相关

2.表名:callout

官方说明地址:

https://mit-lcp.github.io/mimic-schema-spy/tables/callout.html

https://mimic.mit.edu/docs/iii/tables/callout/

表来源:Hospital database

表内容:提供病人准备从ICU转出或者已经从ICU转出时相关信息

表行数:34499

表间联系:通过subject_id与patients表相关;通过hadm_id与admissions表相关

3.表名:icustays

官方说明地址:

https://mit-lcp.github.io/mimic-schema-spy/tables/icustays.html

https://mimic.mit.edu/docs/iii/tables/icustays/

表来源:Hospital database

表内容:ICU记录表

表行数:61532

表间联系:通过subject_id与patients表相连;通过hadm_id与admissions表相连;通过icustay_id与charevents、datetimeevents、inputevents_cv、inputevents_mv、transfers、outputevents、prescriptions、procedureevents_mv表相连

4.表名:patients

官方说明地址:

https://mit-lcp.github.io/mimic-schema-spy/tables/patients.html

https://mimic.mit.edu/docs/iii/tables/patients/

表来源:Hospital database

表内容:患者信息

表行数:46520

表间联系:通过subject_id与admissions、callout、chartevents、cptevents、datetimeevents、diagnoses_icd、drgcodes、icustays、inputevents_cv、inputevents_mv、labevents、microbiologyevents、noteevents、outputevents、prescriptions、procedureevents_mv、procedures_icd、services、transfers表相关

5.表名:services

官方说明地址:

https://mit-lcp.github.io/mimic-schema-spy/tables/services.html

https://mimic.mit.edu/docs/iii/tables/services/

表来源:Hospital database

表内容:患者在住院期间接受的医疗服务

表行数:73343

表间联系:

通过subject_id与patients表相关

通过hadm_id与admissions表相关

6.表名:transfers

官方说明地址:

https://mimic.mit.edu/docs/iii/tables/transfers/

https://mit-lcp.github.io/mimic-schema-spy/tables/transfers.html

表来源:Hospital database

表内容:病人周转信息

表行数:261,897

表间联系:

通过subject_id与patients表相关;通过hadm_id与admissions表相关;通过icustay_id与icustays表相关

(三)在重症监护病房中收集的患者数据信息表

1.表名:caregivers

官方说明地址:

https://mit-lcp.github.io/mimic-schema-spy/tables/caregivers.html

https://mimic.mit.edu/docs/iii/tables/caregivers/

表来源:CareVue and Metavision ICU databases

表内容:与ICU住院有关的护理人员信息

表行数:7567

表间联系:通过cgid与chartevents表、datetimeevents表、inputevents_cv表、inputevents_mv表、noteevents表、outputevents表、procedureevents_mv表相关

2.表名: chartevents

官方说明地址:

https://mit-lcp.github.io/mimic-schema-spy/tables/chartevents.html https://mimic.mit.edu/docs/iii/tables/chartevents/

表来源: CareVue and Metavision ICU databases 表内容: 存储所有病人的所有记录数据

表行数: 330,712,483

表间联系:  subject_id和patients表中的subject_id关联;hadm_id和admissions表中的hadm_id关联;icustay_id和icustays表中的icustay_id关联;itemid和d_items表中的itemid关联;cgid和caregivers表中的cgid关联

3.表名:datetimeevents

官方说明地址:

https://mit-lcp.github.io/mimic-schema-spy/tables/datetimeevents.html

https://mimic.mit.edu/docs/iii/tables/datetimeevents/

表来源:CareVue and Metavision ICU databases

表行数:4485937

表间联系:通过subject_id与patients表相关;通过hadm_id与admissions表相关;通过icustay_id与icustays表相关;通过itemid与d_items表相关;通过cgid与caregivers表相关

4.表名:inputevents_cv

官方说明地址:

https://mit-lcp.github.io/mimic-schema-spy/tables/inputevents_cv.html

https://mit-lcp.github.io/mimic-schema-spy/tables/inputevents_cv.html

表来源:CareVue ICU databases

表内容:与数据最初存储在 CareVue 数据库中的患者的液体输入相关的事件。

表行数:17527935

表间联系:通过subject_id与patients表相连;通过hadm_id与admission表相连;通过icustay_id与icustays表相连;通过cgid与caregivers表相连。

5.表名:inputevens_mv

官方说明地址:

https://mit-lcp.github.io/mimic-schema-spy/tables/inputevents_mv.html

https://mimic.mit.edu/docs/iii/tables/inputevents_mv/

表来源:Metavision ICU databases

表内容:与最初存储在 MetaVision 数据库中的患者的液体输入相关的事件

表行数:3618991

表间联系:通过subject_id与patients表相连;通过hadm_id与admission表相连;通过icustay_id与icustays表相连;通过item_id与d_items表相连;通过cgid与caregivers表相连。

6.表名:noteevents

官方说明地址:

https://mit-lcp.github.io/mimic-schema-spy/tables/noteevents.html

https://mimic.mit.edu/docs/iii/tables/noteevents

表来源:Hospital database

表内容:note记录事件表

表行数:2083180

表间联系:通过subject_id与patients表相连;通过hadm_id与admissions表相连;通过cgid与caregivers表相连。

7.表名: outputevents

官方说明地址:

https://mit-lcp.github.io/mimic-schema-spy/tables/outputevents.html

https://mimic.mit.edu/docs/iii/tables/outputevents/

表来源: CareVue and Metavision ICU database

表内容:  ICU住院期间记录的病人的输出数据

表行数: 4,349,218

表间联系: subject_id与表patients表中的subject_id关联;hadm_id和admissions表中的hadm_id关联;icustay_id和icustays表中的icustay_id关联;itemid和d_items表中的itemid关联;cgid和caregivers表中的cgid关联

8.表名: procedureevents_mv

官方说明地址:

https://mit-lcp.github.io/mimic-schema-spy/tables/procedureevents_mv.html

https://mimic.mit.edu/docs/iii/tables/procedureevents_mv

表来源: Metavision ICU database

表内容: 记录患者的治疗procedure信息

表行数: 258,066

表间联系:  subject_id和patients表中的subject_id关联;hadm_id和admissions表中的hadm_id关联;icustay_id和icustays表中的icustay_id关联;itemid和d_items表中的itemid关联;cgid和caregivers表中的cgid关联

(四)医院记录系统收集的数据信息表

1.表名:cpteevnts

官方说明地址:

https://mit-lcp.github.io/mimic-schema-spy/tables/cptevents.html

https://mimic.mit.edu/docs/iii/tables/cptevents/

表来源:医院数据库

表内容:包含当前程序术语 (Current Procedural Terminology, CPT) 代码,便于对患者执行的程序进行计费

表行数:573146

表间联系:通过subject_id和patients表联系,通过hadm_id 和admissions表联系

2.表名:diagnoses_icd

官方说明地址:

https://mit-lcp.github.io/mimic-schema-spy/tables/diagnoses_icd.html

https://mimic.mit.edu/docs/iii/tables/diagnoses_icd/

表来源:医院数据库。

表内容:患者的ICD代码诊断

表行数:651047

表间联系:通过subject_id和patients相关,通过hadm_id和admissions相关,通过icd9_code和d_icd_diagnoses相关

3.表名:DRGCODES

官方说明地址:

https://mit-lcp.github.io/mimic-schema-spy/tables/drgcodes.html

https://mimic.mit.edu/docs/iii/tables/drgcodes/

表来源:医院数据库

表内容:包含患者诊断相关的(Diagnosis Related Groups, DRG)代码

表行数:125557

表间联系:通过subject_id与patients相关,通过hadm_id和admissions相关;

4.表名:labevents

官方说明地址:

https://mit-lcp.github.io/mimic-schema-spy/tables/labevents.html   

https://mimic.mit.edu/docs/iii/tables/labevents/

表来源:Hospital database

表内容:实验室检验相关的事件

表行数:27854055

表间联系:通过subject_id与patients表相连;通过hadm_id与admissions表相连;通过itemid与d_labitems表相连

5.表名:microbiologyevents

官方说明地址:

https://mit-lcp.github.io/mimic-schema-spy/tables/microbiologyevents.html

https://mimic.mit.edu/docs/iii/tables/microbiologyevents/

表来源:Hospital database.

表内容:微生物检验相关的事件

表行数:631726

表间联系:通过subject_id与patients表相连;通过hadm_id与admissions表相连; 通过spec_itemid、org_itemid、ab_itemid与d_items表相连

6.表名:prescriptions

官方说明地址:

https://mit-lcp.github.io/mimic-schema-spy/tables/prescriptions.html

https://mimic.mit.edu/docs/iii/tables/prescriptions/

表来源:Hospital provider order entry database

表内容:处方药品表

表行数:4156450

表间联系:通过subject_id与patients表相连; 通过hadm_id与admissions表相连; 通过icustay_id与icustays表相连

7.表名:procedures_icd

官方说明地址:

https://mit-lcp.github.io/mimic-schema-spy/tables/procedures_icd.html

https://mimic.mit.edu/docs/iii/tables/procedures_icd/

表来源:Hospital database

表内容:病人住院procedures对应的ICD-9码

表间联系:通过subject_id与patients表相连; 通过hadm_id与admissions表相连; 通过icd9_code与d_icd_procedures表相连

好文阅读

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: