基因表达在生物体的发育、成长和繁殖中起着重要的调控作用,预测基因表达有助于更好地理解序列变异对转录调控的机制和影响。染色质相互作用在基因组中创造了远端调控元件和靶基因之间的空间临近性,这对基因表达、转录调控和表型特征有重要影响。迄今为止,研究者们利用基因组序列,已经开发了一些基于深度学习预测基因表达量的方法。然而,现有的方法并未考虑染色质相互作用对靶基因表达量的影响,并未对重要的调控元件挖掘进行探索,以及在玉米等植物中此方面的研究鲜有报道。
6月10日,华中农业大学玉米团队在Plant Communications上发表了题为“DeepCBA: a deep learning framework for gene expression prediction in maize based on DNA sequence and chromatin interaction”的研究论文。该研究开发了一种基于染色质交互序列预测玉米基因表达量的深度学习模型DeepCBA。该模型包括三个功能模块,其中卷积神经网络 (Convolution neural network, CNN)用于抽取编码后的染色质序列特征和降维。双向长短时记忆网络 (Bidirectional Long Short-term Memory Network, BiLSTM)用于挖掘染色质序列中上
与现有模型相比,DeepCBA在基因表达分类和表达量值预测方面具有更高的准确性。利用基因启动子近端相互作用(PPI)、近端-远端相互作用(PDI)和PPI+PDI相互作用预测基因表达的平均皮尔逊相关系数(PCC)分别为0.818、0.625和0.929,相比仅使用基因近端序列方法的PCC分别提高了0.357、0.16和0.469。通过DeepCBA鉴定出了一些重要的基序,进一步研究发现挖掘得到的基序富集于开放染色质区域和表达数量性状位点(eQTL),并具有组织特异性的分子特征。同时,该研究利用与玉米开花期相关的基因ZmRap2.7以及分蘖相关的基因ZmTb1进一步进行验证,结果表明DeepCBA在挖掘影响基因表达的调控元件方面具有高度可行性。
为进一步探索DeepCBA模型在更广范围内应用的可行性,作者构建了DeepCBA的迁移学习模型实现跨组织(雌穗、幼苗期)和跨基因型材料(B73、SK)的基因表达量预测。通过迁移学习模型,跨组织和跨基因型的基因表达量预测的PCC 超过 85%,表明DeepCBA 具有广泛的应用范围。
另外,该研究通过启动子饱和突变实验进一步验证DeepCBA预测基因表达值变化的准确性。作者选取了玉米 ZmCLE7、ZmVTE4 两个基因进行启动子区域的编辑。ZmCLE7 通过影响穗部表型来影响玉米产量,作者利用雌穗组织构建深度学习预测DeepCBA模型。选取基因 ZmCLE7 上游长度为 4 kb区域(chr4: 8334400-8338400)作为候选编辑区域。结合已发表的结果,将CRISPR-Cas9编辑序列输入DeepCBA模型预测基因表达量。结果显示,DeepCBA预测得到ZmCLE7基因的表达量与实验得到的表达量趋势一致。为了进一步精确地探索 4kb 目标基因组序列如何影响 ZmCLE7 的表达量,研究人员使用滑动窗口的方法法(窗口大小=200 bp,步长= 200 bp)对4 kb 序列进行处理,获得12 个长度为 3 kb 的序列。使用 DeepCBA 模型对上述 12 个编辑过的序列进行基因量表达量预测,结果表明,与生物实验结果相比,利用DeepCBA 模型可以产生更广泛的表达量变异类型。与ZmCLE7的研究思路类似,针对影响玉米维生素E含量ZmVTE4基因的启动子区域编辑结果同样展示出预测基因表达量与实验得到表达量趋势一致的效果。
为广大研究者更方便了解、使用 DeepCBA 模型,作者开发了一个实时的在线Web网站(http://www.deepcba.com/ 或 http://124.220.197.196/),用于对四种作物(玉米、水稻、棉花和小麦)进行基因表达量预测和序列重要性可视化展示。
综上,本研究基于玉米染色质相互作用数据,开发了基于深度学习的高精度基因表达量预测模型DeepCBA。与现有模型相比,DeepCBA 在基因表达分类和表达值预测方面表现出更高的准确性。同时,本研究通过DeepCBA发现了一些重要的基序,这些基序富集在开放染色质区域和表达定量性状位点(eQTL),并具有组织特异性的分子特征。此外,针对与玉米开花期相关基因ZmRap2.7和分蘖相关基因ZmTb1的实验结果证明了DeepCBA在挖掘影响基因表达的调控元件方面的可行性。最后,通过已报道两个基因(ZmCLE7 和 ZmVTE4)启动子序列的编辑实验表明DeepCBA 在精确设计基因表达量以及未来智能设计育种方面的可行性。
该研究得到作物遗传改良全国重点实验室严建兵教授的大力支持、指导和帮助。博士研究生王振业、博士后彭勇和已毕业本科生李杰为论文的共同第一作者,刘建晓副教授为论文通讯作者。博士研究生袁豪、杨尚坡,硕士研究生王守哲、丁新茹、谢傲、李克勤以及已毕业本科生张江陵、石佳奇、邢广杰和史维瀚等参与了该项研究。华中农大肖英杰教授、胡学海教授、王茂军教授等对该研究提供指导帮助。该研究得到国家重点研发计划、农业生物育种重大专项等项目资助。