(通讯员|吕靖怡秦信广)4月14日下午,我校第四届生物信息设计与技能大赛在逸夫楼C座举行。我校生物信息、动物医学等专业共有16组选手参加了本次竞赛,信息学院院长张红雨教授,马彬广、孔德信教授等老师担任本次竞赛的评委。
此次竞赛共分为三个赛道:第一赛道为生物信息算法与软件的设计和优化;第二赛道为组学数据的挖掘与统计分析;第三赛道为生物系统的建模与模拟。其中第一、三赛道共九组选手在314进行答辩,第二赛道七组选手则在603进行角逐。
为改进RNA-Seq这一重要的研究生物学问题的方法,第一赛道的“Aurora of bioinformatics”队通过使用Python语言对流程进行衔接从而整合多个软件,用包括“爬虫”技术、文本挖掘技术等多种优化技术以及自主研发软件工具的方式形成了一套完整的RNA-Seq自动分析系统。这样的流程化处理使得用户只需一次命令即可完成可变剪切分析的所有流程,节省了繁复的步骤,大大提高了工作效率。当汇报人生信1401班的汤晨提到所研发的工具已经发布在github网站时,评委老师的提出“这个工具的用户有多少”的问题,选手表示由于网址发布时间不久,因此暂且没有用户。第三赛道的“爱模拟旗舰队”基于拉伸动力学的药物停留时间模拟的项目以物理与生物结合的形式来解决生物问题,角度新颖且极具操作性。除此之外,以改进算法以及生物学分析为主的第一、三赛道的另外七组也讲解了他们的项目,独特的思考角度与多种研究方法的碰撞在本次比赛中得以体现。
603会议室内,第二赛道的BiC-wdc组来自生信1501班的王雅琦带来的是“基于CMap数据的雷公藤红素作用类似药物组合”,她从背景、研究思路、算法简述以及结果分析方面对该小组的项目进行了阐述。他们通过药物组合的基因表达矩阵先进行初步数据筛选再运用计算欧式距离、投影寻踪、MiNi-Batch-KMeans聚类、自定义打分的方法进行相似性计算,最终得出由a372n参与组成的三种药物组合a372na405、a214na372n、a372na1264n,以及药物组合a214na1295n的表达谱与雷公藤红素的表达谱相似度较高,具有比较大的研究意义这一结论。对于这个项目,评委们将目光放在了研究背景与研究结果的对比上。张红雨院长提出了最开始选取药物组合存在一定的不合理性,“只选取数值最大的50个探针和数值最小的50个探针的话,万一存在其他组合存在‘1+1>2’的情况怎么办?”王雅琦回答道:“如果考虑那样的情况的话研究难度较大,所以没有考虑这方面。”生信1502班的王泽坤“想叫啥叫啥队”基于表观基因组的糖尿病治疗中药发现,“π”队猪链球菌毒力基因联合作战的预测及网络分析,EGM队红曲菌的比较基因组分析等。
答辩结束后,张红雨院长强调:“我们需要注重生物学背后的意义,如果生物学问题不重要,那后面的任何研究都失去了意义,所有我们的生物课还是应该好好听。并提出建议:在理解生物学问题的前提下,要明确数据来源以及对本质特征的理解。在方法的选择方面,要选择适当的方法,步骤较少的方法,处理步骤越多越容易出错,步骤越少越好。”同时院长也鼓励其他学院的同学要多学编程,提高编程能力,强化算法方面的知识。
最终第一赛道“RNA-Seq自动化系统的构建和相关网络服务的开发”获得第一名;第二赛道“基于表观基因组数据的T2DM中药发现”获得第一名;第三赛道“大豆慢生根瘤菌基因依赖性网络构建与分析”获得第一名。最后评委老师为选手现场颁发了各个赛道的一等奖、二等奖、三等奖及优秀奖证书及奖品。