(文|辛西 编辑|信息 审核|章文)近日,人工智能领域顶级国际会议AAAI-2024 (The 38th AAAI Conference on Artificial Intelligence,CCF-A类) 录用了信息学院章文教授课题组在人工智能与生物医学交叉领域的两篇研究成果。录用的两篇研究论文分别以“A Multi-Modal Contrastive Diffusion Model for Therapeutic Peptide Generation”和“Improving PTM Site Prediction by Coupling of Multi-Granularity Structure and Multi-Scale Sequence Representation”为题。第一项研究设计了多肽的多模态联合扩散生成模型,以最大化序列-结构模态互信息,提升多肽的生成质量;第二项研究设计了多粒度结构和多尺度序列相结合的蛋白翻译后修饰(PTM)位点预测模型,提升PTM位点识别的准确度。
多肽由于其高亲和性、低免疫性等特点,已被广泛用于抗肿瘤、抗病毒等临床治疗。此外,多肽可用于农业生产,在植物保护中与农药协同增效,降低生态危害性。传统的多肽设计,依赖于大规模多肽文库和高通量实验,存在经济成本高、时间周期长等缺陷。生成模型是人工智能领域的前沿技术,如何设计高质量、满足特定功能的多肽生成模型,是近年来AI for Science的热点研究问题。当前多肽生成模型大多使用序列级的多肽表示信息,无法有效描述多肽的结构信息,同时未充分利用多肽数据资源和领域知识,进而限制了多肽生成模型的性能。因此研究团队提出了一种名为多模态对比式联合扩散模型的多肽生成方法——MMCD。该方法有效整合多肽的序列-结构模态信息,并设计inter-CL和intra-CL两种对比学习策略,在生成过程中捕捉不同模态的一致性和数据之间的生物学差异性,从而实现高质量的、具备特定功能的多肽生成。
蛋白翻译后修饰(PTM)是指在氨基酸残基的侧链上添加小分子基团的生物学事件,是提高蛋白质组功能多样性的关键因素。PTM位点的准确测定有助于加深对蛋白质功能及其在各种复杂细胞过程中的调控机制的理解。如何准确预测PTM位点,是生命科学领域的重要课题。研究者已经开发了很多计算方法来预测PTM位点,然而现有方法仅利用蛋白质序列信息,忽略了蛋白质结构信息。考虑到PTM是发生在原子粒度上的生物学事件,迫切需要设计一种更细粒度的结构表示学习建模方法。研究团队提出了一种PTM位点预测方法——PTM-CMGMS,该方法从AlphaFold预测的蛋白质结构中学习不同粒度(氨基酸,原子和全蛋白)下的邻域结构表示,并利用对比学习优化结构表示以增强模型鲁棒性,同时提取蛋白质序列上下文和motif来获取多尺度的序列表示,从而实现高精度的PTM位点预测。
人工智能促进协会(AAAI)是具有重要影响力的国际学术组织,旨在推动智能思维与行为机制的科学理解及机器实现,并促进人工智能的科学研究和规范应用。我校信息学院博士研究生王永康、博士研究生刘旋、硕士研究生李政毅分别为两篇论文的共同第一作者和第一作者,章文教授、朱丽达老师为通讯作者,该项研究工作获得了国家自然科学基金面上项目等的资助。