当前位置: 学院首页 > 科学研究 > 学术论坛 > 正文
学院举办聚焦植物健康智能监测的学术报告会
发布日期 2025-04-17 浏览次数

     (文|何艳红、刘雅文 编辑|辛西 审核|夏静波)4月16日上午,信息学院举办了一场聚焦植物健康智能监测的学术报告会。会议邀请了法国国家农业、食品与环境研究院(INRAE)的Claire Nédellec博士与Robert Bossy博士两位专家,分别围绕《基于EPOP语料库的AI植物疫病预警系统》和《语料库标注质量控制》展开深入学术分享。信息学院副院长章文教授出席会议并致辞,对两位专家的到来表示热烈欢迎,人工智能系夏静波副教授主持学术报告。

        Claire Nédellec博士在报告中系统解析了GreenLens智能管道的技术逻辑,并简要介绍了INRAE的组织构成和科研基础。INRAE作为法国国家级的农业、食品与环境研究机构,拥有约10,000名成员,与全球约150个国家的研究者保持合作。Claire博士所在的MaiAGE部门专注于生物信息学、人工智能在农业中的应用,并与DATAIA研究院以及其下属的生物研究小组紧密协作,推动生物医药自然语言处理(BioNLP)技术在农业领域中的深入应用。

        GreenLens管道依托自然语言处理技术,从全球5万余份多语言文献中提取植物健康相关实体,如病原体、寄主植物、时间与地点,并借助领域本体与结构化知识库实现语义标准化。例如,法文文献中的“Powdery mildew on tomato(番茄白粉病)”通过NCEB分类法映射至统一术语“Oldium neolycopersici(TaxID 332002)”,并关联到具体的地理信息。Claire博士指出,该项目属于更广泛的BEYOND项目,其目标是“从流行病学监测延伸至预防性干预”,特别强调通过近距离与远距离的观察,实现早期文本信息捕捉,以服务于时间与空间维度上的风险预警。GreenLens的核心在于实现“从文本到知识库的语义丰富”,其技术流程包括三个阶段:首先是信息提取,利用深度学习模型识别文本中的关键实体与其间的关系,如“Solanum lycopersicum(番茄)”与“Oldium neolycopersici(番茄白粉菌)”的致病关联;其次是本体推理,借助领域本体对提取信息进行逻辑验证,判断信息是否符合生物学常识,例如检测“温带地区雨季病害”是否可能由“非生物条件(如低温)”诱发;最后是知识整合,即将标准化信息链接至管理知识库,并与遥感影像、生物传感器等多源数据进行交叉验证,从而构建动态更新的知识网络。

        Claire博士在报告中特别介绍了ESV平台的关键任务,即围绕植物流行病和病虫害的预警与监测。整个处理流程包括关键词识别、数据抓取、智能翻译、文本处理与语义转换,最后生成可用于应用场景的报表。例如,通过网络搜索机制自动收集数据信息,提取关键实体后形成监测信息,随后进入翻译与分析流程,最终转化为用于管理与决策的实用报告。

       为实现更加精确的信息提取,GreenLens不仅关注病原体与宿主的关系,还通过命名实体识别(NER)与关系抽取(RE)等手段,逐步抽取包括时间、地点、宿主植物、传播媒介等核心要素。同时,它还提供文本阅读辅助功能,可以在段落中高亮显示特定词语,帮助研究者快速定位关键信息。所有提取信息经过知识图谱化处理,与外部异构数据融合,形成一个集成化信息系统,并通过领域本体与管理型知识库进行语义推理与融合。值得注意的是,在知识推理阶段,该系统采用“涵摄+分配”的策略,通过逻辑规则对新知识进行归纳与赋值。例如,当文本中提及的病害尚未存在于知识库中,系统可以根据已有条目进行合理推断并生成新条目。这种基于逻辑归纳的“涵摄”机制有助于用自身数据补足外部数据空缺,持续丰富知识库内容,从而实现GreenLens对植物健康危机的动态实时监测。

       Robert Bossy博士则着重阐述了EPOP语料库的标注质控体系建设。在面对ESV平台积压的10万份文档时,团队采用分层抽样策略,选取最近三个月的500份文献作为代表,以捕捉农业健康趋势的最新变化。Robert博士详细说明了高质量语料库的重要性——不仅服务于语言学研究者的需求,也直接关系到NLP系统开发的标准性与稳定性。EPOP注释团队构建了一套完整的质量控制流程,包括五个关键步骤:第一,文献选择阶段采用系统抽样方法并评估翻译质量;第二,制定注释计划,在活动前阶段发布指南,确立基本标准;第三,通过组织措施强化团队协作,包括在线培训课程、Q&A机制、专用Google资源库等;第四,引入自动化检测机制,利用正则表达式识别关键词与模式(如时间戳、地理矛盾等),例如文本中同时出现“2025年4月”与“雨季病害”会被系统自动标记并触发复核;第五,在此基础上逐步形成EPOP标准语料库,该成果目前已通过ISO认证,成为农业NLP研究的标杆数据集。

       在标注阶段,为解决术语复杂性(例如“Solanum lycopersicum”的别名问题),团队制定了超过300条动态注释规则,并使用正则工具检测逻辑矛盾。Robert博士提到,EPOP语料库累计修正了2000余次语义冲突,术语映射一致性显著提升。这一成果在质量控制中被视为“有意警告”的成功案例,也成为未来农业文本分析的质量标准基础。

       在讨论环节,与会师生展开了热烈讨论,包括解决农业文本结构化的系统化方法,调跨学科协作和技术落地的重要性。以及“本体概念映射”、“本体推理优化”等具体算法议题。Claire博士以“稻瘟病菌”的别名标准化为例,展示了本体系统与机器学习算法协同优化的实践路径;而Robert博士则结合“赤霉病”标注冲突的修正案例,详细解释了AI推理与人工核验之间的互补关系。此次学术报告会集中展现了农业文本智能解析在本体融合、多源数据整合与数据质控等方面的若干进展,在人工智能、智慧农业的交叉领域引起广泛共鸣。