目的 针对体检数据的高维度、高冗余特点,对体检数据进行Lasso特征选择,为高维体检数据减少数据冗余提供方法学参考.方法 以代谢综合征为切入点,收集乌鲁木齐某体检中心2016年体检者信息共34981例,每位体检者信息包含75个变量.Lasso算法用于筛选体检中与代谢综合征强相关的变量.以F值、几何均数、ROC曲线下面积作为评价指标,比较Lasso特征选择前后,决策树分类体检中的代谢综合征患者的性能.结果 Lasso特征选择后,体检变量降至34个与代谢综合征强先关的炎性因子.Lasso特征选择后,C4.5决策树的分类性能提高.结论 建议在对体检高维数据分类前,运用Lasso进行特征选择,减少数据冗余,同时提高分类算法性能.
作者:闫慈;田翔华;阿拉依·阿汗;张伟文;曹明芹
来源:公共卫生与预防医学 2017 年 28卷 6期