目的:通过生物信息学及机器学算法筛选及分析前列腺癌的关键表达基因,探究诊断前列腺癌的生物标志物及与前列腺癌免疫细胞浸润的相关性。方法:使用生物信息学方法从基因表达谱(GEO)数据库中下载3个前列腺癌组织信使RNA(mRNA)芯片数据集:其中GSE46602和GSE69334作为训练集,GSE32571作为验证集。对数据集GSE46602及数据集GSE69223两个数据集进行合并分析后获得差异表达基因(DEGs),京都基因与基因组百科全书(KEGG)、基因本体论(GO)、疾病富集分析(DO)与基因富集分析(GSEA)用于功能富集分析。Lasso回归筛选特征基因11个,支持向量机(SVM)筛选特征基因2个,取交集为两个特征基因丝氨酸蛋白酶(HPN)、角蛋白23(KRT23),将两个基因在数据集GSE32571中进行验证,同时通过实时荧光定量聚合酶链反应在前列腺癌相关细胞系中进行验证,最后进一步分析了两个特征基因与免疫细胞浸润相关联系,两组间使用Student’s
t检验评估统计学意义。
结果:通过对GEO数据库3个前列腺癌数据集使用R语言及机器学习等方法进行分析,总共发现35个DEGs和两个核心基因,其中20个为下调基因,15个为上调基因。通过GO、KEGG、DO及GSEA通路分析发现这些基因富集在表皮细胞分化、角质形成等功能中,以细胞外基质受体相互作用
作者:高文治;何宇辉;朱振鹏;张家锋;巩艳青;何世明;周利群;郭跃先;李学松
来源:中华实验外科杂志 2022 年 39卷 1期