目的 以SEER数据库中1990—2014年间的乳腺癌数据为研究对象,利用机器学习方法,分析乳腺癌的预后因素,辅助医师对患者的预后进行有效评判.方法 根据临床医师的建议,筛选了12个字段作为模型输入字段,以术后5年生存状况作为模型输出字段.首先利用单因素统计分析方法初步筛选预后因素,再分别利用logistic回归和决策树两种机器学习分类算法进行建模分析,藉此寻找影响乳腺癌5年预后的因素.采用十折交叉法组织样本数据,并利用过抽样和欠抽样技术进行样本的平衡处理;以灵敏度、特异度及ROC下的AUC等参数作为模型的评价指标.结果 在12个模型输入字段中,肿瘤分期、肿瘤分级、肿瘤尺寸、雌激素水平、年龄分组、孕激素水平等因素对于乳腺肿瘤预后具有较大影响;在此两种模型下,模型测试集上的灵敏度和特异度均介于74.2%~78.2%之间,AUC均处于0.838~0.850之间.结论 利用Logistic回归和决策树算法构建乳腺癌患者的优化预后模型,可辅助医师判断患者预后情况及治疗效果.
作者:章鸣嬛;张璇;郭欣;陈瑛
来源:北京生物医学工程 2019 年 38卷 5期