目的 产科的病案诊断文本,科研价值高但挖掘难度大.本文提出了一种组合算法方法,从文本中自动挖掘出满足科研要求的标准诊断术语,且可在不同医院产科应用.方法 本文的组合算法先基于标注语料训练MC-BERT模型,训练后的模型进行术语标准化,再用Louvain算法归类冗余术语,自动输出科研诊断术语.结果 组合算法的术语标准化在测试集上的F1达到0.923 5,并可自动将1 107个标准诊断术语聚类为106个科研诊断术语.组合算法在另一家医院的验证集上也得到了验证,术语标准化算法F1达到0.909 4.结论 该方法能从病案诊断文本中批量高效获取科研诊断术语,训练后的模型可在多家医院产科应用.
作者:马银瑶;毕文帅;毛锦江;孟晨伟;吕翰林;王雷
来源:中国当代医药 2023 年 30卷 20期