目的:探讨应用新颖性探测模型评估医学文献主题新颖性的可行性,对比分析2种新颖性探测方法(词重叠法和基于共词的逆文档频率量化法)的优劣.方法:选取生物医学领域8个研究主题,从PubMed数据库收集文献,构建2种新颖性探测模型,结合文献主题新颖性的专家分析结果,利用ROC曲线及AUC值对2种新颖性探测模型的可行性进行评估.结果:词重叠法的新颖度计算结果波动幅度较大,能够更好地将文献内容间差异表现在数据上.基于ROC曲线及AUC值分析,词重叠法对于判断新颖文献具有一定准确性,基于共词特性的逆文档频率量化法对于判断新颖文献准确性较低.结论:两种新颖性探测方法得出的新颖度计算结果呈中度相关,二者的均值差异有统计学意义,前者的表现优于后者.
作者:陈斯斯;董立平;许丹;郭继军
来源:中华医学图书情报杂志 2018 年 27卷 2期