目的 了解全国传染病报告信息管理系统中法定传染病报告卡重复报告(重卡)现状,分析重卡原因,提出解决方法,进一步规范报告管理,提高数据质量.方法 基于Hadoop和Spark为核心的大数据分析平台,利用Python和Jupyter notebook,按照查重条件对2005-2017年全国法定传染病报告卡分别统计分析年度内重卡、累计重卡和跨年度重卡,并利用Python包matplotlib绘图展示统计结果.结果 2005-2017年年度内重卡率平均为7.65/万,累计重卡数1 141 539张,累计重卡率133.47/万,重卡数居前3位的疾病是乙型肝炎、手足口病和肺结核,占比分别为30.23%、28.01%和12.96%.其中2017年年度内重卡率为11.19/万,年内重卡数8 497张,跨年度重卡累计276 194张.结论 法定传染病年度内卡片重复报告依然有待加强管理,跨年度重卡和累计重卡逐年增多,严重影响数据分析,需要尽快采取相应的数据管理和分析对策.
作者:李言飞;张业武;王晓风;王丽萍
来源:疾病监测 2019 年 34卷 5期