Advertisement

基于临床记录和结构化数据,预测ICU再入院率的源代码。

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
NLP在医疗保健领域的应用,利用MIMIC III数据库中的结构化和非结构化数据,旨在预测患者未来30天再次入住ICU的情况。数据处理方面,结构化数据的ETL流程可于结构目录中查阅,具体包括structured_etl_part1.scala和structured_etl_part2.py这两个脚本。与此同时,非结构化数据的处理脚本均位于dataproc目录内。为了处理NOTEEVENTS并提取单词向量,我们采用data_processing_script.py。此外,使用get_discharge_summaries.py脚本获取放电汇总信息,并借助build_vocab.py脚本从这些放电摘要构建词汇表(vocab)。随后,利用word_embeddings.py脚本在所有单词上训练单词嵌入。最后,通过extract_wvs.py中的gensim_to_embeddings方法,结合我们构建的词汇表,对经过训练的单词嵌入进行生成和造型,构建了结构化网络在struc_net中的应用。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • MIMIC-ICU-Readmission-Prediction: ICU-
    优质
    本项目旨在通过分析MIMIC-III数据库中的临床记录和结构化数据,构建模型以预测重症监护病房(ICU)患者的再入院风险。提供相关源代码供研究使用。 NLP在医疗保健领域的应用使用MIMIC III中的结构化和非结构化数据来预测30天内重症监护病房(ICU)的再次入院情况。处理结构化数据方面,相关的ETL过程可以在structured_etl_part1.scala和structured_etl_part2.py文件中找到。 对于非结构化的数据,所有相关的数据处理脚本都位于dataproc目录下: - 使用data_processing_script.py来处理NOTEEVENTS以获取单词向量。 - 利用get_discharge_summaries.py编写放电汇总,并通过build_vocab.py从这些放电摘要构建词汇表(vocab)。 - 采用word_embeddings.py在所有单词上训练词嵌入,然后使用extract_wvs.py中的gensim_to_embeddings方法将经过训练的词嵌入写入我们的词汇表中。 结构化网络的相关信息可以在struc_net部分找到。
  • 试验分析:试验
    优质
    本研究聚焦于通过先进的统计与机器学习方法,对临床试验数据进行深度挖掘和模式识别,以实现对未来临床试验结果的精准预测。致力于提升药物研发效率及成功率。 临床试验结果预测 1. 通过Conda安装 使用conda.yml文件创建并激活环境: ``` conda env create -f conda.yml conda activate predict_drug_clinical_trial ``` 2. 原始数据 原始数据存储在`.ClinicalTrialGov`目录中,包含超过348,891条临床试验记录。由于不断新增的临床试验信息,数据量会持续增长。 3. 数据预处理 3.1 收集所有NCTID 从`.ClinicalTrialGov`目录下收集所有的XML文件,并将结果存放在`data/all_xml`中: ``` find ClinicalTrialGov -name NCT*.xml | sort > data/all_xml ``` 3.2 疾病分类到ICD-10编码 此步骤涉及将疾病名称映射为ICD-10编码,输入数据包括ClinicalTrialGov目录下的文件和`data`中的重写内容。
  • 非肿瘤模型
    优质
    本研究旨在开发基于非肿瘤患者数据的临床预测模型,通过分析大规模医疗记录,以提高疾病风险评估和早期诊断的准确性。 在利用非肿瘤数据构建临床预测模型的过程中,我们会进行一系列数据分析步骤。首先通过LASSO回归筛选变量,然后使用逻辑回归分析,并绘制Nomogram图以直观展示预测结果。此外,我们还会计算C-index来评估模型的区分能力,并通过校准曲线和ROC曲线进一步验证模型性能。最后,采用DCA(决策曲线分析)方法对模型进行综合评价与验证。
  • 心力衰竭集 CSV格式 5K+条目
    优质
    本数据集包含超过5000条CSV格式的心力衰竭患者临床记录,涵盖多项生理指标和治疗信息,旨在支持心力衰竭预后的研究与模型构建。 该数据集包含5000名心力衰竭患者的医疗记录,在随访期间收集的资料中每个患者档案有13个临床特征。 这些特征包括: - 年龄:患者年龄(岁) - 贫血:红细胞或血红蛋白减少(布尔值) - 肌酐磷酸激酶 (CPK):血液中的 CPK 酶水平 (mcgL) - 糖尿病:如果患者患有糖尿病(布尔值) - 射血分数:每次心脏收缩时离开心脏的血液百分比(百分比) - 高血压:如果患者患有高血压(布尔值) - 血小板:血液中的血小板数量(千个/mL) - 性别:女性或男性(二元变量) - 血清肌酐:血液中血清肌酐水平 (mg/dL) - 血清钠:血液中血清钠水平(mEq/L) - 吸烟:患者是否吸烟(布尔值) - 时间:随访期天数 - DEATH_EVENT:如果患者在随访期间死亡,该字段为真(布尔值)
  • MIMIC_ICU:用评估对比MIMIC-III库中现有ICU风险评分
    优质
    MIMIC_ICU 是一个开源项目,旨在利用MIMIC-III数据库评估与比较不同ICU再入院风险预测模型的性能。此工具为研究人员提供了一个全面对比各类评分系统有效性的平台。 该模块利用MIMIC-III数据库,并通过资格标准筛选生成“可用”的ICU患者数据集,这些数据可以随时重新定义。出于数据安全原因,不会将此数据集文件上传到GitHub。目前提取的是接受手术治疗或转为需要手术治疗的患者信息。
  • 医疗
    优质
    本数据集聚焦于医院患者再入院情况,涵盖多种医疗信息与统计数据,旨在深入研究影响再入院的关键因素,优化医疗服务流程。 该数据集包含65个字段,包括住院时间、实验室操作数、手术操作数、药物使用情况、门诊次数、急诊次数以及住院期间的诊断记录等。此外还涵盖了患者的种族(白人或非洲裔)、性别(女性)及年龄区间(如70-80岁),并详细列出了支付方式代码和医学专科分类,例如内科、急诊/创伤科、家庭/普通科及心脏病学,并具体列出了一些特定的诊断编码,比如428。
  • 直肠癌TCGAGEO
    优质
    本研究综合分析了来自TCGA和GEO数据库的大量结直肠癌患者临床数据,旨在探索其分子特征与临床信息之间的关联。 实时更新TCGA和GEO数据库中的结直肠癌临床资料。
  • 研究中风险模型:如何建?
    优质
    本课程聚焦于讲解在临床研究中建立有效的风险预测模型的方法与技巧,涵盖数据收集、分析以及模型验证等关键步骤。 风险预测模型是基于个体特征来估计其发生特定疾病或出现某种结局的概率的统计工具,在临床实践中常用于评估疾病的严重程度并揭示相关风险因素。随着科技的进步以及临床和生物学数据量的增长,这类模型在肾脏疾病研究中的应用日益广泛。 本段落将指导读者创建一个预测模型,并详细说明以下步骤:确定需要解决的具体问题及选择合适的预测类型;收集与处理所需的数据;构建模型并通过变量筛选优化其性能;评估并验证该模型的准确性和可靠性;展示和撰写报告来呈现结果。最后,通过建立针对终末期肾病(ESKD)患者在重症监护病房(ICU)入院后90天内死亡率预测的例子,进一步说明如何推导此类风险预测模型的具体过程。
  • TCGA提取
    优质
    本研究聚焦于从TCGA数据库中高效、准确地提取临床相关信息,旨在为癌症研究和治疗提供有力的数据支持。 自己编写程序来整理和提取TCGA的临床信息,以便进行生存分析。