目的 采用logistic、随机森林和CatBoost结合过采样技术(synthetic minority over-sampling technique,SMOTE)技术对天津市某浴池MSM人群数据构建模型以预测HIV的感染风险,并评价三个模型的分类效果.方法 利用10×10折交叉验证对模型进行训练和预测,使用网格搜索确定各模型的超参数.然后使用AUC、accuracy、brier score和F1值对上述三种模型进行评价.结果 在原始数据上,三种模型的表现基本一致,但在对类别比例不敏感的AUC和Brier score上,CatBoost的表现略优于其他两个模型.CatBoost、logistic和随机森林的AUC分别为0.798±0.026,0.792±0.037,0.934±0.040;Brier score分别为0.056±0.001、0.091±0.004和0.054±0.003.使用SMOTE后,CatBoost的性能明显优于其他两个模型.在测试集上,其AUC、accuracy、brier score和F1值分别为0.984±0.003、0.950±0.007、0.040±0.004和0.950±0.007.结论 可使用Catboost模型预测MSM人群中的潜在HIV感染者.
作者:宋德胜;张甜甜;陈阳;姚婷婷;张洪璐;刘媛媛;李长平;崔壮;马骏
来源:中国卫生统计 2021 年 38卷 4期