您的账号已在其他设备登录,您当前账号已强迫下线,
如非您本人操作,建议您在会员中心进行密码修改

确定
收藏 | 浏览550 | 下载77

目的 探讨随机森林算法在肺癌高维病例-对照资料分析中的应用效果.方法 选取500例医院来源肺癌患者作为病例组,以517名社区来源对照人群作为对照组,每名研究对象均常规采集静脉抗凝血5 ml,位点基因型通过GoldenGate定制芯片平台分型,经筛选获得399个SNP位点,先利用随机森林算法进行降维,再用传统的logistic回归对降维后的变量进行分析,并采用受试者工作特征曲线(ROC)曲线下面积(AUC)分析多个SNP位点与肺癌的遗传易感性.结果 经随机森林算法筛得50个平均重要性得分最高且错误率最低的变量,其中环境变量(吸烟、年龄分组、性别)的重要性得分均位于前20,分别为4.05、3.12、1.16;在调整3个环境变量后,经阳性结果错误率(FDR)法进行多重性校正,结果仍有统计学意义的SNP位点有6个(FDR-P<0.05),而如果直接采用传统logistic回归分析,则无法发现有统计学意义的SNP位点.对于2个ROC曲线(分别为只包含环境变量模型ROC曲线、包含环境变量和SNP位点模型的ROC曲线)AUC(分别为0.6491±0.0172、0.6811±0.0166)的似然比检验结果表明,6个SNP位点与肺癌的关联性有统计学意义(X2=43.82,p=3.6×10-11).结论 利用随机森林算法先剔除高维数据的噪声位点,再利用logistic回归分析,可提高检验效能,优于直接利用logistic回归分析.

作者:朱晶晶;赵杨;陆凤;胡志斌;陈峰

来源:中华预防医学杂志 2012 年 46卷 9期

知识库介绍

临床诊疗知识库该平台旨在解决临床医护人员在学习、工作中对医学信息的需求,方便快速、便捷的获取实用的医学信息,辅助临床决策参考。该库包含疾病、药品、检查、指南规范、病例文献及循证文献等多种丰富权威的临床资源。

详细介绍
热门关注
免责声明:本知识库提供的有关内容等信息仅供学习参考,不代替医生的诊断和医嘱。

收藏
| 浏览:550 | 下载:77
作者:
朱晶晶;赵杨;陆凤;胡志斌;陈峰
来源:
中华预防医学杂志 2012 年 46卷 9期
标签:
肺肿瘤 多态性,单核苷酸 人工智能 随机森林 Lung neoplasms Polymorphism,single nucleotide Artificial intelligence Random forest
目的 探讨随机森林算法在肺癌高维病例-对照资料分析中的应用效果.方法 选取500例医院来源肺癌患者作为病例组,以517名社区来源对照人群作为对照组,每名研究对象均常规采集静脉抗凝血5 ml,位点基因型通过GoldenGate定制芯片平台分型,经筛选获得399个SNP位点,先利用随机森林算法进行降维,再用传统的logistic回归对降维后的变量进行分析,并采用受试者工作特征曲线(ROC)曲线下面积(AUC)分析多个SNP位点与肺癌的遗传易感性.结果 经随机森林算法筛得50个平均重要性得分最高且错误率最低的变量,其中环境变量(吸烟、年龄分组、性别)的重要性得分均位于前20,分别为4.05、3.12、1.16;在调整3个环境变量后,经阳性结果错误率(FDR)法进行多重性校正,结果仍有统计学意义的SNP位点有6个(FDR-P<0.05),而如果直接采用传统logistic回归分析,则无法发现有统计学意义的SNP位点.对于2个ROC曲线(分别为只包含环境变量模型ROC曲线、包含环境变量和SNP位点模型的ROC曲线)AUC(分别为0.6491±0.0172、0.6811±0.0166)的似然比检验结果表明,6个SNP位点与肺癌的关联性有统计学意义(X2=43.82,p=3.6×10-11).结论 利用随机森林算法先剔除高维数据的噪声位点,再利用logistic回归分析,可提高检验效能,优于直接利用logistic回归分析.