学术科研

华中农大/中棉所/新疆农垦科学院等多单位联合发布棉花多组学数据库,助力棉花遗传育种

发布日期:2022-10-14 发表者:陈治国 浏览次数:




近日,华中农业大学信息学院、中国农科院棉花研究所生信中心以及新疆农垦科学院棉花所等多单位在国际权威学术期刊Nucleic Acids Research上联合发表了题为CottonMD: a multi-omics database for cotton biological study的研究论文。该研究通过搜集和整合棉花基因组、转录组、变异组、表观遗传、表型组和代谢组等6个组学的数据,构建出目前最为系统和全面的棉花多组学数据库,为棉花遗传育种研究提供了重要的数据资源和分析平台。

棉花是世界上重要的天然纤维作物和战略物资。我国是世界上最重要的棉花生产国和原棉消费国,棉花事关国计民生。随着我国经济快速发展、人口持续增长和城镇化进程稳步推进,居民中高端纺织品消费量渐趋增长,棉纤维产需缺口持续扩大。当前我国棉花新品种的选育主要以传统遗传育种方法为主,该方法虽然取得了大量重要成果,但其挖掘候选重要育种价值基因的精度和效率都较低,极大地限制了新品种的选育进程。近年来已逐渐发展成熟的多组学技术可以为研究者提供更广泛、更多维度的信息来加速育种进程,为解决传统遗传育种方法中存在的问题、加速实现精准育种提供了新的途径。为发挥多组学技术在育种中的价值,水稻、玉米、高粱等多个主要作物的多组学数据库平台已相继被建立,但目前仍缺少一个综合型的棉花多组学数据库平台。

为解决这一问题,研究者通过整合25个棉花基因组、76个组织样本的转录组、5个物种的表观遗传学、4180个样本的群体遗传变异数据、20个表型和768个代谢物含量等公共多组学数据,构建了目前最为系统和全面的棉花多组学数据库-CottonMD(图1)。

该数据库包含大量来自不同组学的信息,用户可以通过输入基因ID或物理位置信息来检索基因相关的多组学信息。以ATAF1基因为例,用户可以利用基因组模块获取4个同源基因的结构和功能信息,并通过转录组模块查询同源基因在不同组织、时期以及胁迫环境下的表达特征(图2)。这些功能为用户快速准确地理解基因的功能提供了快速方便的工具。在该数据库中,研究者利用全基因组关联分析(GWAS)、表达数量性状位点定位(eQTL)、孟德尔随机化(SMR)和共定位分析等多组学关联分析方法对不同组学的棉花数据进行关联,并将分析结果和工具整合到数据库中以方便用户查询、分析和利用。

然后,研究者以纤维伸长率位点FE1为例,系统介绍了利用CottonMD解析位点调控基因表达和表型的机制的方法(图3):1)用户首先查询SMR和COLOC模块中该位点的SMR和共定位分析结果,确定出该位点中的候选基因-Ghi_D04G09151;2)利用Variaiton模块进行单倍型分析,确定不同单倍型对应的基因表达和表型的效应;3)利用JBrowser浏览器查询该基因区域的遗传变异进和表观信号,推测遗传变异影响基因表达和表型的机制。

与现有的其他数据库相比,CottonMD是首个利用多种关联分析方法挖掘“变异-基因表达-表型”之间关联信息并提供相应数据可视化查询的数据库。此外,该数据库提供了最丰富的棉花多组学数据以及多种在线多组学分析以及种质资源管理工具。在CottonMD中,所有模块均支持25个已发表棉花基因组的基因ID进行搜索、浏览和数据下载,以服务全球范围内的相关研究工作。

华中农业大学信息学院已毕业博士生杨植全(现广州大学博士后),硕士生王静和黄一鸣为论文并列第一作者,华中农业大学杨庆勇教授和中国农业科学院棉花研究所杨作仁研究员为论文共同通讯作者。新疆农垦科学院余渝研究员、石河子大学聂新辉教授对本项研究提供了指导。该研究主要在杨庆勇教授和杨作仁研究员共同援疆期间完成,得到了派出单位和新疆农垦科学院的大力支持。该项研究得到了国家重点研发计划、河南省自然科学基金、湖北省自然科学基金和海南省崖州湾种子实验室生物信息学开发平台等项目的资助。

原文链接:https://mp.weixin.qq.com/s?__biz=MzU3ODY3MDM0NA==&mid=2247522834&idx=1&sn=07c4541a5d952cc295c6021a0eece721&chksm=fd730075ca04896342162e2eacae63b194f0a1d022dae00ea31a71fafcda1be9c660a64cbe89&mpshare=1&scene=23&srcid=10131V43iElRtdktqfcdZH3K&sharer_sharetime=1665711886641&sharer_shareid=bbf9368ad92928a47d3fda3cab013f13#rd