目的 采用XGBoost和随机森林法探索中国西部女性乳腺癌危险因素.方法 2014-2015年间采用病例对照研究设计序贯收集病例788例,对照801例.问卷调查研究对象乳腺癌相关危险因素信息;采用飞行时间质谱生物芯片技术检测对象乳腺癌易感基因的SNPs突变,并估计多个基因的联合评分(polygenetic risk score,PRS).按绝经状态为分层因素,分别用XGBoost和随机森林构建绝经前/后乳腺癌风险预测模型,筛选乳腺癌相关危险因素并进重要性排序.结果 两种算法筛选的乳腺癌危险因素清单前10位显示,绝经前/后主要的危险因素包括总哺乳时间、人工节育器累积使用时间、PRS、被动吸烟年限、BMI及体重信息和年龄.两种模型在绝经前后AUC值均大于70%.结论 通过两种机器学习法筛选的危险因素较为一致,这些因素将有助于筛选中国西部女性的乳腺癌高危因素,以实现乳腺癌风险分级管理.
作者:李旭;彭佳丽;刘春容;易芳;李佳圆
来源:现代预防医学 2020 年 47卷 1期