罗汉果是广西特有药用及甜料植物,其主要成分之一甜苷 V 作为天然、非糖甜味剂,具有广阔的开发前景,但罗汉果目前完全来自于栽培,适生区狭窄,连作障碍严重,加之含量低导致甜苷 V 生产成本居高不下,严重限制了其应用。为了减少盲目性,在大规模全基因组深度测序之前,先做低覆盖度的基因组 Survey测序,评价基因组的大小及复杂程度,以确定适合该植物全基因组的测序研究策略。该研究采用第二代高通量测序技术(Illumina HiseqTM 2000)首次测定了罗汉果基因组大小,并利用生物信息学方法估计罗汉果杂合率、重复序列和 GC 含量等基因组信息。结果表明:(1)获得了18.1 Gb 罗汉果基因组测序数据,基因组大小估计为344.95 Mb 左右,测序深度为52×;(2)从 K-mer 分布曲线发现罗汉果基因组有明显的杂合峰,杂合率达1.5%,基因组高杂合导致组装的结果中 Contig N50和 Scaffold N50的长度比预期的要短很多,还造成 GC 平均深度及含量分布明显异常,存在一个低深度分布区域。基因组主峰后面有微弱的重复峰,说明罗汉果存在较多的重复序列;(3)由于罗汉果存在高杂合率和重复序列较多的特点,该基因组测序分析仅采用全基因组鸟枪法(WGS)策略不合适,为了更好地对全基因组进行序列拼接和组装,可尝试结合采
作者:唐其;马小军;莫长明;潘丽梅;韦荣昌;赵欢
来源:广西植物 2015 年 6期