三、eICU-CRD数据集的获取方式
eICU-CRD数据集的下载页面地址为https://physionet.org/content/eicu-crd/2.0/
获取数据之前需要取得麻省理工大学附属数据相关课程的合格证书,之后在PhysioNet上注册账号,提交证书并进行资格认证申请,在审核通过后方可进行下载。详细的步骤说明可见https://eicu-crd.mit.edu/gettingstarted/access/
数据集共有31个csv格式的文件分别是'admissionDrug.csv', 'admissionDx.csv','allergy.csv','apacheApsVar.csv','apachePatientResult.csv','apachePredVar.csv','carePlanCareProvider.csv','carePlanEOL.csv','carePlanGeneral.csv','carePlanGoal.csv','carePlanInfectiousDisease.csv','customLab.csv','diagnosis.csv','hospital.csv','infusionDrug.csv','intakeOutput.csv','lab.csv','medication.csv','microLab.csv','note.csv','nurseAssessment.csv','nurseCare.csv','nurseCharting.csv','pastHistory.csv','patient.csv','physicalExam.csv','respiratoryCare.csv','respiratoryCharting.csv','treatment.csv', 'vitalAperiodic.csv', 'vitalPeriodic.csv'。
这些表格涵盖了病人住院期间多个维度的详细信息详细说明文档可见https://eicu-crd.mit.edu/eicutables/admissiondrug/,接下来我们将逐个展开介绍。
GCT论文处理方式:patient, admissionDx, diagnosis, treatment CSV files
Overview and Usage Guidelines
Step-by-step to train the model
Clone the repository.Request access to the eICU dataset from eICU website.
Note that you are required to participate in the CITI training.Download the patient, admissionDx, diagnosis, treatment CSV files.Generate TFRecords using eicu_samples/process_eicu.py.
python process_eicu.py
python train.py
Implementation detail
We implement the following files to run the model:
train.py
This file is the entry point for training the model. Model is trained usinv TensorFlow Estimator.It is currently written to train the model for readmission prediction. To change the task to mortality prediction, set the label_key to "label.readmission".graph_convolutional_transformer.py
This file contains the Graph Convolutional Transformer implementation, along with input_fn and model_fn to be used by TensorFlow Estimator.eicu_samples/process_eicu.py
This file preprocesses Philips eICU Collaborative Dataset in order to obtain TFRecords of SequenceExamples that can be used to test the model.synthetic_samples/process_synthetic.py
This file generates TFRecords of synthetic SequenceExamples. If you are interested in replicating synthetic experiments in the paper, please use this script to generate synthetic samples. However, the source code graph_convolutional_transformer.py also needs modifications as it is currently written for binary prediction tasks only.To use process_synthetic.py, first download visit_list.p from the binary release, then execute python process_synthetic.py
GCT实验所用eICU四字段说明:
patient
patient表包含住院和ICU住院的病人统计信息以及入院和出院详细信息,详情请见表25。
序号 特征 数值类型 备注 1 patientunitstayid 数值型 病人的全局唯一标识符 2 patienthealthsystemstayid 数值型 病人住院期间的代理标识符 3 gender 字符型 病人性别 4 age 数值型 病人的完整年龄。如果病人超过 89 岁,请指定“> 89” 5 ethnicity 字符型 病人的种族 6 hospitalid 数值型 与病人单位住院相关的医院的代理键 7 wardid 数值型 与病人单位住院相关的病房的代理键 8 apacheadmissiondx 字符型 病人单位住院的全路径入院诊断 9 admissionheight 数值型 病人入院身高 10 hospitaladmittime24 数值型 24小时入院时间 11 hospitaladmitoffset 数值型 从入院到病人进入ICU的分钟数 12 hospitaladmitsource 字符型 病人入院的位置 13 hospitaldischargeyear 数值型 出院日期年份 14 hospitaldischargetime24 数值型 出院事件发生时的 24 小时格式时间 15 hospitaldischargeoffset 数值型 从入院到病人出院的分钟数 16 hospitaldischargelocation 字符型 病人出院地点 17 hospitaldischargestatus 字符型 指定病人出院时的状况 18 unittype 字符型 ICU病房类型 19 unitadmittime24 数值型 进入ICU发生时间的 24 小时格式时间 20 unitadmitsource 字符型 病人入院的位置 21 unitvisitnumber 数值型 标识病人的就诊次数 22 unitstaytype 字符型 病人单位逗留类型 23 admissionweight 数值型 病人入院体重 24 dischargeweight 数值型 单位出院时的病人体重 25 unitdischargetime24 数值型 离开ICU发生时间的 24 小时格式的时间 26 unitdischargeoffset 数值型 从进入ICU到病人出院的分钟数 27 unitdischargelocation 字符型 病人出院位置 28 unitdischargestatus 字符型 指定病人离开时的状况 29 uniquepid 字符型 唯一病人的 ID
表25 patient表的特征和含义
admissiondx表
包含根据APACHE评分标准以及进入ICU的初步诊断。这部分信息在病人病历中填写。在入院后的固定时间内,护理人员不能更新该表,详细信息请见表2。
序号 特征 数值类型 备注 1 admissiondxid 数值型 住院诊断的代理标识符 2 patientunitstayid 数值型 病人的全局唯一标识符 3 admitdxenteredoffset 数值型 从进入ICU病房到输入入院诊断的分钟数 4 admitdxpath 字符型 入院诊断项目的完整路径 5 admitdxname 字符型 入院诊断项目的名称 6 admitdxtext 字符型 入院诊断详细值
表2 admissiondx表的特征和含义
diagnosis
diagnosis表包含医疗记录的主动诊断/治疗部分中记录的每个病人的诊断列表。相应的国际疾病分类代码(ICD,International Classification of Diseases)也载于该表。这对于确定在ICU住院期间是否记录了某些疾病,以及在病人ICU住院的哪个时间点记录了这些诊断是很有用的,详细内容请见表13。
序号 特征 数值类型 备注 1 diagnosisid 数值型 诊断的代理标识符 2 patientunitstayid 数值型 病人全局唯一标识符 3 activeupondischarge 字符型 表示出院时诊断是否有效 4 diagnosisoffset 数值型 从进入ICU病房到输入诊断的分钟数 5 diagnosisstring 字符型 在 eCareManager 中选择的诊断的完整路径字符串 6 icd9code 字符型 用于诊断的 ICD代码 7 diagnosispriority 字符型 选项列表值,表示诊断是否标记
表13 diagnosis表的特征和含义
treatment表
允许用户以一种结构化的格式记录病人具体的治疗信息,详细信息请见表29。
序号 特征 数值类型 备注 1 treatmentid 数值型 治疗表的代理标识符 2 patientunitstayid 数值型 病人的全局唯一标识符 3 treatmentoffset 数值型 从进入ICU病房到确认治疗手段的分钟数 4 treatmentstring 字符型 治疗手段路径 5 activeupondischarge 字符型 表示出院时治疗是否有效
表29 treatment表的特征和含义
MIMIC IV数据库和eICU
MIMIC IV数据库是面向全球科研人员的可免费获取临床数据的公共数据库,数据库收集了美国马塞诸塞州波士顿贝斯以色列女执事医疗中心收治的从2008年至2019年超过38万名患者的临床数据,其中记录了患者的人口统计学信息、实验室检查、用药情况、生命体征、手术操作、疾病诊断、药物管理、生存状态等详细信息。
eICU-CRD数据库发布旨在MIMIC-Ⅲ成功建立的基础上,通过从多个中心医疗机构提供数据来扩大研究范围。eICU数据库由美国众多医院的ICU病房数据组成,目前版本是v2.0,于2018年5月17日发布,涵盖了2014年和2015年入住重症监护病房的200000多例患者的常规数据,收集了大量高质量的临床信息,包括生命体征、护理计划、疾病严重程度、诊断信息、治疗信息等,很好地解决了医疗人员缺少大数据进行临床研究的现状。
MIMIC-III医疗信息学数据集详解
数据科学与分析 2022-10-28 12:16
原文:MIMIC-III医疗信息学数据集详解
MIMIC-III (Medical Information Mart for Intensive Care III)由麻省理工学院计算生理学实验室构建。它是一个大型、免费的数据集,由4万多名病人的健康数据信息构成。这些病人来自Beth Israel Deaconess Medical Center的ICU,时间为2001年至2012年。
该数据集主要包括了人口统计数据(demographics)、在病床进行的生命体征测量(每小时约1个数据点)、实验室检查结果、治疗(procedures)、药物、护理人员工作记录、影像报告、死亡信息(包括院内和院外)等信息。
该数据集可用于支持广泛的研究工作,包括流行病学、临床决策规则优化、医疗电子工具开发。它具有三个显著的优点:可供全世界研究者广泛使用;涵盖多元化且数据庞大的ICU患者群体;包括大量的时序数据,包括实验室检查结果、电子文档、临床监测数据。
该数据集共包括26张表格,可划分为五类,分别如下:
第一类,字典信息数据表
1. d_cpt
2. d_icd_diagnoses
3. d_icd_procedures
4. d_items
5. d_labitems
第二类,患者及其入院情况的信息表
1. admissions
2. callout
3. icustays
4. patients
5. services
6. transfers
第三类,在重症监护病房中收集的患者数据信息表
1. caregivers
2. chartevents
3. datetimeevents
4. inputevents_cv
5. inputevens_mv
6. noteevents
7. outputevents
8. procedureevents_mv
第四类,医院记录系统收集的数据信息表
1. cpteevnts
2. diagnoses_icd
3. drgcodes
4. labevents
5. microbiologyevents
6. prescriptions
7. procedures_icd
为帮助研究人员尽快熟悉MIMIC-III数据集,我们对该数据集的所有数据表和字段进行了初步的解析说明。此外,我们为每个数据表抽取了100条样例数据,以便大家熟悉数据形式。此解析说明和样例数据,由齐鲁工业大学(山东省科学院)自然语言处理与认知计算课题组张鑫、魏斯博、张国标、赵直倬、付新月同学,在鹿文鹏教授指导下,共同整理完成。如果有需要,请随时联系鹿文鹏获取,邮箱:wenpeng.lu@qlu.edu.cn。学术水平有限,若有疏忽,敬请批评指正!
后附数据表结构解析,如下:
(一)字典信息数据表
1.表名:d_cpt
官方说明地址:
https://mit-lcp.github.io/mimic-schema-spy/tables/d_cpt.html
https://mimic.mit.edu/docs/iii/tables/d_cpt/
表来源:Online definitions(在线定义)
表内容:CPT代码的高级定义
表行数:134
表间联系:无
2.表名:d_icd_diagnoses
官方说明地址:
https://mit-lcp.github.io/mimic-schema-spy/tables/d_icd_diagnoses.html
https://mimic.mit.edu/docs/iii/tables/d_icd_diagnoses/
表来源:Online sources
表内容: 《国际疾病分类词典》第9版(诊断)
表行数: 14,710
表间联系: icd9_code与表diagnoses_icd表中的icd9_code关联
3.表名:d_icd_procedures
官方说明地址:
https://mit-lcp.github.io/mimic-schema-spy/tables/d_icd_procedures.html
https://mimic.mit.edu/docs/iii/tables/d_icd_procedures/
表来源:Online sources
表内容:ICD医疗过程词典表
表行数:3898
表间联系:通过icd9_code与procedures_icd表相连
4.表名:d_items
官方说明地址:
https://mit-lcp.github.io/mimic-schema-spy/tables/d_items.html
https://mimic.mit.edu/docs/iii/tables/d_items/
表来源:CareVue and Metavision ICU databases
表内容:ICU数据库中所有items的定义表。D_ITEMS来自两个不同的 ICU数据库。如果LINKSTO列为null,则数据当前不可用,但计划用于将来的版本。
表间联系:通过itemid与chartevents、datetimeevents、inputevents_mv、outputevents、procedureevents_mv、microbiologyevents表相关。
5.表名:d_labitems
官方说明地址:
https://mit-lcp.github.io/mimic-schema-spy/tables/d_labitems.html
https://mimic.mit.edu/docs/iii/tables/d_labitems
表来源:Hospital database
表内容:实验室检测相关items的字典
表行数:753
表间联系:通过itemid与labevents表相连
(二)患者及其入院情况的信息表
1.表名:admissions
官方说明地址:
https://mit-lcp.github.io/mimic-schema-spy/tables/admissions.html
https://mimic.mit.edu/docs/iii/tables/admissions/
表来源:Hospital database
表内容:患者入院信息
表行数:58976
表间联系:通过hadm_id与patients、callout、chartevents、cptevents、datetimeevents、diagnoses_icd、drgcodes、icustays、inputevents_cv、inputevents_mv、labevents、microbiologyevents、noteevents、outputevents、prescriptions、procedureevents_mv、procedures_icd、services、transfers表相关;通过subject_id与patients表相关
2.表名:callout
官方说明地址:
https://mit-lcp.github.io/mimic-schema-spy/tables/callout.html
https://mimic.mit.edu/docs/iii/tables/callout/
表来源:Hospital database
表内容:提供病人准备从ICU转出或者已经从ICU转出时相关信息
表行数:34499
表间联系:通过subject_id与patients表相关;通过hadm_id与admissions表相关
3.表名:icustays
官方说明地址:
https://mit-lcp.github.io/mimic-schema-spy/tables/icustays.html
https://mimic.mit.edu/docs/iii/tables/icustays/
表来源:Hospital database
表内容:ICU记录表
表行数:61532
表间联系:通过subject_id与patients表相连;通过hadm_id与admissions表相连;通过icustay_id与charevents、datetimeevents、inputevents_cv、inputevents_mv、transfers、outputevents、prescriptions、procedureevents_mv表相连
4.表名:patients
官方说明地址:
https://mit-lcp.github.io/mimic-schema-spy/tables/patients.html
https://mimic.mit.edu/docs/iii/tables/patients/
表来源:Hospital database
表内容:患者信息
表行数:46520
表间联系:通过subject_id与admissions、callout、chartevents、cptevents、datetimeevents、diagnoses_icd、drgcodes、icustays、inputevents_cv、inputevents_mv、labevents、microbiologyevents、noteevents、outputevents、prescriptions、procedureevents_mv、procedures_icd、services、transfers表相关
5.表名:services
官方说明地址:
https://mit-lcp.github.io/mimic-schema-spy/tables/services.html
https://mimic.mit.edu/docs/iii/tables/services/
表来源:Hospital database
表内容:患者在住院期间接受的医疗服务
表行数:73343
表间联系:
通过subject_id与patients表相关
通过hadm_id与admissions表相关
6.表名:transfers
官方说明地址:
https://mimic.mit.edu/docs/iii/tables/transfers/
https://mit-lcp.github.io/mimic-schema-spy/tables/transfers.html
表来源:Hospital database
表内容:病人周转信息
表行数:261,897
表间联系:
通过subject_id与patients表相关;通过hadm_id与admissions表相关;通过icustay_id与icustays表相关
(三)在重症监护病房中收集的患者数据信息表
1.表名:caregivers
官方说明地址:
https://mit-lcp.github.io/mimic-schema-spy/tables/caregivers.html
https://mimic.mit.edu/docs/iii/tables/caregivers/
表来源:CareVue and Metavision ICU databases
表内容:与ICU住院有关的护理人员信息
表行数:7567
表间联系:通过cgid与chartevents表、datetimeevents表、inputevents_cv表、inputevents_mv表、noteevents表、outputevents表、procedureevents_mv表相关
2.表名: chartevents
官方说明地址:
https://mit-lcp.github.io/mimic-schema-spy/tables/chartevents.html https://mimic.mit.edu/docs/iii/tables/chartevents/
表来源: CareVue and Metavision ICU databases 表内容: 存储所有病人的所有记录数据
表行数: 330,712,483
表间联系: subject_id和patients表中的subject_id关联;hadm_id和admissions表中的hadm_id关联;icustay_id和icustays表中的icustay_id关联;itemid和d_items表中的itemid关联;cgid和caregivers表中的cgid关联
3.表名:datetimeevents
官方说明地址:
https://mit-lcp.github.io/mimic-schema-spy/tables/datetimeevents.html
https://mimic.mit.edu/docs/iii/tables/datetimeevents/
表来源:CareVue and Metavision ICU databases
表行数:4485937
表间联系:通过subject_id与patients表相关;通过hadm_id与admissions表相关;通过icustay_id与icustays表相关;通过itemid与d_items表相关;通过cgid与caregivers表相关
4.表名:inputevents_cv
官方说明地址:
https://mit-lcp.github.io/mimic-schema-spy/tables/inputevents_cv.html
https://mit-lcp.github.io/mimic-schema-spy/tables/inputevents_cv.html
表来源:CareVue ICU databases
表内容:与数据最初存储在 CareVue 数据库中的患者的液体输入相关的事件。
表行数:17527935
表间联系:通过subject_id与patients表相连;通过hadm_id与admission表相连;通过icustay_id与icustays表相连;通过cgid与caregivers表相连。
5.表名:inputevens_mv
官方说明地址:
https://mit-lcp.github.io/mimic-schema-spy/tables/inputevents_mv.html
https://mimic.mit.edu/docs/iii/tables/inputevents_mv/
表来源:Metavision ICU databases
表内容:与最初存储在 MetaVision 数据库中的患者的液体输入相关的事件
表行数:3618991
表间联系:通过subject_id与patients表相连;通过hadm_id与admission表相连;通过icustay_id与icustays表相连;通过item_id与d_items表相连;通过cgid与caregivers表相连。
6.表名:noteevents
官方说明地址:
https://mit-lcp.github.io/mimic-schema-spy/tables/noteevents.html
https://mimic.mit.edu/docs/iii/tables/noteevents
表来源:Hospital database
表内容:note记录事件表
表行数:2083180
表间联系:通过subject_id与patients表相连;通过hadm_id与admissions表相连;通过cgid与caregivers表相连。
7.表名: outputevents
官方说明地址:
https://mit-lcp.github.io/mimic-schema-spy/tables/outputevents.html
https://mimic.mit.edu/docs/iii/tables/outputevents/
表来源: CareVue and Metavision ICU database
表内容: ICU住院期间记录的病人的输出数据
表行数: 4,349,218
表间联系: subject_id与表patients表中的subject_id关联;hadm_id和admissions表中的hadm_id关联;icustay_id和icustays表中的icustay_id关联;itemid和d_items表中的itemid关联;cgid和caregivers表中的cgid关联
8.表名: procedureevents_mv
官方说明地址:
https://mit-lcp.github.io/mimic-schema-spy/tables/procedureevents_mv.html
https://mimic.mit.edu/docs/iii/tables/procedureevents_mv
表来源: Metavision ICU database
表内容: 记录患者的治疗procedure信息
表行数: 258,066
表间联系: subject_id和patients表中的subject_id关联;hadm_id和admissions表中的hadm_id关联;icustay_id和icustays表中的icustay_id关联;itemid和d_items表中的itemid关联;cgid和caregivers表中的cgid关联
(四)医院记录系统收集的数据信息表
1.表名:cpteevnts
官方说明地址:
https://mit-lcp.github.io/mimic-schema-spy/tables/cptevents.html
https://mimic.mit.edu/docs/iii/tables/cptevents/
表来源:医院数据库
表内容:包含当前程序术语 (Current Procedural Terminology, CPT) 代码,便于对患者执行的程序进行计费
表行数:573146
表间联系:通过subject_id和patients表联系,通过hadm_id 和admissions表联系
2.表名:diagnoses_icd
官方说明地址:
https://mit-lcp.github.io/mimic-schema-spy/tables/diagnoses_icd.html
https://mimic.mit.edu/docs/iii/tables/diagnoses_icd/
表来源:医院数据库。
表内容:患者的ICD代码诊断
表行数:651047
表间联系:通过subject_id和patients相关,通过hadm_id和admissions相关,通过icd9_code和d_icd_diagnoses相关
3.表名:DRGCODES
官方说明地址:
https://mit-lcp.github.io/mimic-schema-spy/tables/drgcodes.html
https://mimic.mit.edu/docs/iii/tables/drgcodes/
表来源:医院数据库
表内容:包含患者诊断相关的(Diagnosis Related Groups, DRG)代码
表行数:125557
表间联系:通过subject_id与patients相关,通过hadm_id和admissions相关;
4.表名:labevents
官方说明地址:
https://mit-lcp.github.io/mimic-schema-spy/tables/labevents.html
https://mimic.mit.edu/docs/iii/tables/labevents/
表来源:Hospital database
表内容:实验室检验相关的事件
表行数:27854055
表间联系:通过subject_id与patients表相连;通过hadm_id与admissions表相连;通过itemid与d_labitems表相连
5.表名:microbiologyevents
官方说明地址:
https://mit-lcp.github.io/mimic-schema-spy/tables/microbiologyevents.html
https://mimic.mit.edu/docs/iii/tables/microbiologyevents/
表来源:Hospital database.
表内容:微生物检验相关的事件
表行数:631726
表间联系:通过subject_id与patients表相连;通过hadm_id与admissions表相连; 通过spec_itemid、org_itemid、ab_itemid与d_items表相连
6.表名:prescriptions
官方说明地址:
https://mit-lcp.github.io/mimic-schema-spy/tables/prescriptions.html
https://mimic.mit.edu/docs/iii/tables/prescriptions/
表来源:Hospital provider order entry database
表内容:处方药品表
表行数:4156450
表间联系:通过subject_id与patients表相连; 通过hadm_id与admissions表相连; 通过icustay_id与icustays表相连
7.表名:procedures_icd
官方说明地址:
https://mit-lcp.github.io/mimic-schema-spy/tables/procedures_icd.html
https://mimic.mit.edu/docs/iii/tables/procedures_icd/
表来源:Hospital database
表内容:病人住院procedures对应的ICD-9码
表间联系:通过subject_id与patients表相连; 通过hadm_id与admissions表相连; 通过icd9_code与d_icd_procedures表相连
好文阅读
发表评论