学术科研

香港中文大学Wing-Kin Sung教授作题为“T2T genome assembly and its application in mouse”学术报告

发布日期:2024-05-22 发表者:陈治国 浏览次数:



   (图文|孙元辉 编辑|信息 审核|李国亮)5月16日上午,信息学院“Happy Hour”2024年度第7期学术交流会在一综A102举行。受副院长李国亮教授邀请,香港中文大学Wing-Kin Sung(宋永健)教授来校作了题为 “T2T genome assembly and its application in mouse” 的学术报告。报告吸引众多师生参与。


   Wing-Kin Sung教授首先以人类基因组计划为背景,阐述了T2T基因组组装的重要性。他指出,T2T基因组能提供更精确的基因组注释,极大增强突变识别的准确性。

   接着,Wing-Kin Sung回顾了基因组组装技术的发展历程,特别强调了长读长测序技术正逐渐成为基因组组装的主流方法。长读长测序凭借超长的读长,可跨越基因组中的复杂重复区域,极大推动基因组重复区域的组装。然而目前T2T基因组组装策略和算法大多同时需要Pacbio和ONT两种长读长测序技术,使得T2T组装的成本相对较高。T2T基因组组装中的错误主要集中于高重复度区域(这些区域在比对中有高的覆盖度),而现有polish工具已能有效纠正正常覆盖度区域的组装错误。因此解决高覆盖度区域的组装错误,将大幅提高基因组的组装质量。

   报告中,Wing-Kin Sung教授分享了其研究团队在基因组组装算法方面取得重要成果。他详细介绍了团队开发的hypo-assembler软件,该软件能在不依赖Pacbio测序数据情况下,仅通过ONT长读长测序和二代short reads测序数据实现高质量单倍型T2T组装。针对高覆盖度区域的组装难题,宋教授团队提出solid k-mer的思路,即具有高可信的error-free k-mer。通过short reads,通过统计分析,可找出solid k-mer,然后可在基因组上确定solid region。Wing-Kin Sung教授进一步发现,现有T2T基因组中的大部分组装空缺区间(gap)长度<=100 bp。可通过short reads 将小于100bp的solid region连接起来。此方法可覆盖全基因组73.5%的区域,成功解决大部分gap问题。对于长gap,则需要使用ONT 读段产生minimizer,将长gap转化为short gap然后再进行solid region连接。应用hypo-assembler软件,Wing-Kin Sung教授不仅实现了2个人类参考基因组HG002和CHM13的高质量基因组组装,还成功完成波多黎加原住民HG0073的单倍体水平T2T基因组组装。这些结果说明,Wing-Kin Sung教授开发的hypo-assembler能准确、高效进行单倍型的T2T基因组,降低T2T组装成本,从而有望成为新一代基因组学研究的重要工具,为基因组学领域带来新的研究机遇。


   Wing-Kin Sung教授的报告引发现场师生极大兴趣。随后交流环节,他与大家深入探讨了研究成果和未来发展方向。