(文|欧阳思卓 审核人|李国亮)6月17日下午,来自IRD的研究员Pierre Larmande博士和来自法国国家农业,食品和环境研究所的研究主任Claire Nedellec应我院副教授夏静波邀约,通过线上平台腾讯会议分别向我们分享了题为“OryzaGP,a data set for rice gene annotations”和“Annotation of Wheat Traits and Phenotypes”的学术报告,报告由夏静波副教授主持,相关教师和学生参会。
Pierre Larmande博士首先介绍了OryzaGP是一个水稻物种的基因和蛋白质数据集,以帮助NLP工具处理NER和NEN任务,数据集里包括了从Oryzabase中手动筛选的15k篇与水稻相关的PubMed条目,15k篇对应的摘要以及NER和NEN注释,这些注释是通过PubDictionary和HunFLAIR进行处理的,PubDictionary是一个生命科学公共词典库,HunFlair是一个覆盖五种生物医学实体类型的NER标记器。然后Pierre Larmande博士举了一些标注的例子为我们进行更进一步的说明。像是‘base pair’的缩写bp和基因bp会出现误标的情况,或者是把一些不该被标注成一个基因的其他实体标成了基因,对于这些注释的误报率,Pierre Larmande博士提出,True positive可能等于PubAnnotation + HunFLAIR的注释,或者是测量序列匹配,并提出了一些提高标注效果的方法,如修改Pubdictionary匹配的高级设置后再处理分析,又或者如果在文本中找到完整长度的基因名称,检查是否找到了相应的基因符号,还可以设计一些其他的规则,像例子里提到‘bp’被误标的情况,如果在digit后面发现了‘bp’,可以不要考虑它。报告结束后,夏静波老师,冯在文老师以及参会学生与Pierre Larmande博士就报告内容进行了热烈讨。
随后,Claire Nedellec博士向我们分享了“Annotation of Wheat Traits and Phenotypes”为主题的报告,她首先介绍表型,基因控制着小麦品种的特性(如芒的长度),基因等位基因决定其价值,表型(如无芒),为了将基因与表型联系起来,引入了“Wheat Marker-Assisted Selection(MAS)”,这些‘markers’ 与基因等位基因密切相关,而且markers比基因更容易实验检测,使用markers选择具有农艺价值的品种,有助于发现其分子机制。Claire Nedellec博士还提到集成知识库的科学文献信息提取,目标是对信息进行集中、结构化和标准化,以便更好地访问重用,从海量的文本中给文本信息一个结构,将它们链接到语义共享引用(ontology),使其与其他数据相结合,这一过程可以使用文本挖掘的方法实现。报告的第二部分,Claire Nedellec博士介绍,在文献中自动识别一些实体(如:genes,markers,phenotypes)以及它们在整篇文献里的关系,这些关系可以构成一个大的知识模型。但是在标注时,实体规范化是互操作性的一个关键问题。Claire Nedellec博士还介绍了WTO的分别在ToMap和Alvis平台上的相关工作。报告的第三部分,Claire Nedellec博士介绍了一个用于小麦数据资源和生物信息学的工具WheatIS,这个工具为研究界提供获取遗传、表型和基因组学资源的单一入口点,推动基于现有数据库的服务开发,也有权为数据管理、命名、标准和集成定义指导方针,并比较了两个本体WTO和CO_321。报告结束,夏静波老师,冯在文老师,参会学生与Claire Nedellec博士和Pierre Larmande博士进行了愉快的交流讨论。
会议结束,师生收获颇丰。