转录因子(TF)通过与靶基因(TGs)的特定DNA序列相结合调节其表达,每个TF与其TGs会形成一个调控子(regulon)并完成生物学功能。植物组织中特异表达的regulon在协调相应器官的发育过程中起着至关重要作用。基因转录和翻译需要消耗物质和能量,研究与农艺性状密切相关的组织特异性表达regulon有助于提高物质和能量的利用效率。因此,研究植物组织特异性基因调控可揭示基因在特定组织中的表达模式,也有助于揭示基因间调控关系的一般规律和动态变化。
近日,华中农大信息学院高俊祥团队在 aBIOTECH 发表题为“Inference and prioritization of tissue-specific regulons in Arabidopsis and Oryza” 的研究论文。在该研究中,作者提出一种基于多组学数据和图神经网络的植物组织特异性调控子的推断方法,并将其命名为InferReg。
图卷积网络(GCN)可聚合网络结构信息和节点信息以处理复杂的调控关系,表现出强大的表示和预测能力,因此,作者基于GCN开发了InferReg,其可以结合来自基因表达数据和TF结合基序数据来推断组织特异性regulons。首先,InferReg使用GRNBoost2和表达矩阵来计算共表达网络,该网络提供了基因之间的潜在调控关系。随后,使用Spearman相关系数、TF结合位点和ChIP-seq数据对这些初始调控关系进行进一步过滤和验证。作者从拟南芥数据库中选择了3400个高质量表达数据集,这些数据集涵盖5种不同组织:花(304)、叶(837)、根(886)、种子(917)、幼苗(456),每个样本分别提供37886个基因的表达值,从而得到InferReg的37886 × 3400输入表达矩阵。作者共鉴定到1868个由位置权重矩阵(PWM)表示的结合位点,并将其映射到1015个拟南芥TFs。
为探究InferReg是否可识别特定组织中存在的基因、转录因子和regulons并发挥关键作用,作者首先使用t-SNE来检查上述5种组织的RNA-seq表达谱是否存在显著组织特异性,结果表明这5种组织的基因表达模式存在显著组织特异性。随后通过鉴定不同组织中的差异表达基因(DEGs)来研究每个组织中存在的特异调控关系。接下来,作者通过分析每个组织的GCN预测的regulons来确定组织特异性调控子。调控子中的调节作用可涉及多个基因,这些基因可在不同环境条件下同时或顺序表达,从而实现对细胞功能的复杂调节。作者将每个组织中的DEGs与其他组织进行比较,并从这些基因中选择特异性TF及其相应TG,这些TF和TG结合形成组织特异性regulons。在五个组织中推断出的720个调控子,热图上颜色的深浅表示每个TF调节的TG数量的多少,暗示regulon活性水平的高低。这些结果表明,转录因子及其regulon参与了组织特异性调节,有助于揭示植物发育中复杂多样的转录调控。
为评估InferReg的泛化能力,作者在水稻上使用了该方法。作者收集了日本晴的各种多组学数据,其中包括来自植物表达数据库833个RNA-seq数据集、PlantTFDB数据库中的1862个TFs和CisBP数据库中的1580个TFBS。由于水稻仅有17个可用ChIP-seq数据,作者利用预先训练的拟南芥GCN并将其应用于水稻,然后分析由此产生的预测结果。作者对组织特异性调控进行详细分析,共鉴定出529个调控子,并观察到同一TF在不同组织中调节的TG数量存在显著差异。这些结果表明,InferReg可用于预测其他物种的基因调控关系和组织特异性调控子。为探究这些基因在不同组织中的调节模式,作者创建了基因调控网络,发现了根中高度相关的调控基因:OsARF12、OsARF25 和OsARF16 。此外,作者还发现了在根中TG数量较多但在其他组织中较少的调控子并以WOX11 为例构建了一个调控网络。作者还研究了相反的情况,识别了根中TG数量较少但叶中TG数量较多的调控子OsSND2。
该研究得到国家自然科学基金项目资助。华中农大信息学院硕士生代宏刚为本文第一作者,华中农大信息学院高俊祥副教授为通讯作者。
原文链接: