该数据集包含用于预测肝硬化患者生存率的相关信息和医学指标,旨在为临床研究与模型训练提供支持。
肝硬化是由长期肝脏损伤导致的广泛疤痕化病变,通常由肝炎或慢性饮酒引起。一项关于原发性胆汁性肝硬化的研究数据来源于梅奥诊所1974年至1984年的记录。
预处理步骤:
- 删除“药物”列中存在未命中值(NA)的所有行
- 用平均结果填充缺失的数值
- 对所有类别属性进行一个热编码
问题描述:在1974年到1984年间,有424名原发性胆汁性肝硬化患者转诊至梅奥诊所,并符合测试药物D-青霉素随机安慰剂对照试验的标准。其中312人参与了该实验,其余的112名没有参加临床试验但同意记录基本指标并进行生存追踪。这其中有6人在确诊后不久就无法跟踪,因此最终有总共418人的数据可用于研究。
字段介绍:
- ID:唯一标识符
- N_Days: 从登记到患者死亡、移植或截至研究分析时间的较早者之间的天数。
- Status: 患者的状态(C表示审查,CL因肝脏治疗而审查,D代表死亡)
- Drug: 药物类型(D-Penicillamine 或 安慰剂)
- Age: 年龄(以日为单位)
- Sex:性别(M 男性或 F 女性)
- Ascites: 是否存在腹水(N 否, Y 是)
- Hepatomegaly: 是否存在肝肿大 (N 否,Y 是)
- Spiders: 蜘蛛痣的存在与否(N否、Y是)
- Edema:是否存在水肿(无水肿且未用利尿剂治疗[N];无利尿剂的水肿或通过使用利尿剂解决的水肿[S]; 尽管有利尿剂疗法但仍有肿胀[Y])
- Bilirubin: 血清胆红素,单位为mg/dl
- Cholesterol: 血清胆固醇, 单位是 mg/dl
- Albumin:白蛋白 [gm/dl]
- Copper: 尿铜[微克/天]
- Alk_Phos: 碱性磷酸酶的水平(以单位/升为单位)
- SGOT :SGOT在[U/ml]中的值
- Triglycerides: 甘油三酯含量[mg/dl]
- Platelets:血小板计数 [10^3/uL]
- Prothrombin: 凝血酶原时间(秒)