目的 比较多种集成学习算法和决策树(DT)在构建中国45岁及以上中老年人2型糖尿病(T2DM)前瞻性风险评估模型中的性能差异,为集成学习算法在中老年人T2DM预防与控制中的应用提供理论依据.方法 数据来源于2011-2015年中国健康与养老追踪调查项目,选取其中7 979名45岁及以上中老年人为研究对象.收集研究对象基线社会人口学特征、生活方式与健康行为、疾病史、体格检查和实验室检查结果.采用Python 3.7.6和R 4.1.2软件构建DT、随机森林(RF)、自适应提升算法(AdaBoost)、轻量级梯度提升机(LightGBM)和极端梯度提升(XGBoost)模型.在训练集中处理不平衡数据并优化超参数,采用5折交叉验证评估模型效能.根据默认阈值、平均灵敏度高于80%时阈值,计算受试者工作特征曲线下面积(AUC)、灵敏度和特异度;计算默认阈值下净重新分类改善指数(NRI)和综合判别改善指数(IDI).结果 7 979名研究对象中,T2DM患者为1061例(13.3%).默认阈值下,RF、AdaBoost、LightGBM和XGBoost4种集成学习算法平均AUC分别为0.640±0.023、0.634±0.014、0.647±0.013和0.645±0.011,均优于DT算法(平均AUC为0.601±0.027).调整阈值后,5种机器学习算法的平均灵敏度分别为0.833±0.097、0.863±0.039、0.870±0.044、0.826±0.033和0.852±0.067.NRI
作者:刘睿懿;曲翌敏;刘璇;江宇
来源:中国慢性病预防与控制 2023 年 31卷 4期