目的 探索随机生存森林在大规模测序肺癌随访研究资料中的降维效果,为进一步建立预后预测模型提供依据.方法 利用随机生存森林法对120位肺癌患者399个单核苷酸多态性(single nucleotide polymorphisms,SNPs)位点进行降维分析,筛选出重要性评分较高且错分率较低的SNPs子集,再对该子集建立多元Cox比例风险模型,并利用交叉验证法评价模型的预测效果.结果 随机生存森林法筛选出25个重要的SNPs,控制临床协变量(临床分期、是否手术、组织病理学类型)的多元Cox比例风险模型显示有4个位点有统计学意义.交叉验证结果表明,该模型的平均准确度达83.63%.结论 对高维关联性研究数据利用随机生存森林法先去噪降维,再作进一步分析,有助于后续预后预测模型的建立.
作者:陈干霞;张汝阳;赵杨;胡志斌;陈峰
来源:中华疾病控制杂志 2012 年 16卷 7期