目的 分析儿童先天性心脏病超声心动图检查报告中文字描述信息与临床风险评估结果的相关性,并验证文本挖掘方法在此类分析中的可行性和应用价值.方法 回顾性分析1 042例先天性心脏病患儿的彩色超声心动图报告,通过自然语言处理(natural language processing,NLP)技术进行特征提取与筛选,以患儿的风险等级为预测目标,借助机器学习算法构建决策树,推测出临床医师解读心脏超声报告时可能的决策路径.通过50次基于分层抽样的10折交叉验证评价模型的风险等级预测能力,进而评估报告在临床决策中的作用和价值.结果 使用自动生成的全部三元语法(3-gram)或基于领域知识筛选后的特征,所训练的风险等级预测模型分别达到32.82%和48.57%的分类准确率,平均绝对误差(normalized mean absolute error,NMAE)分别为0.33和0.25.结论 超声心动图报告中的文字部分,尤其是描述疾病征象的常用术语,能够在约75%的水平上反映先天性心脏病患儿的严重程度,为临床医师诊疗决策提供重要依据.
作者:施雅慧;李作峰;常才;张晓艳
来源:复旦学报(医学版) 2018 年 45卷 2期