(文|信息 编辑|信息 审核|沙灜)近日,人工智能领域顶级国际会议AAAI-2024 (The 38th AAAI Conference on Artificial Intelligence,CCF-A类) 录用了信息学院沙灜教授课题组在自然语言处理领域的2篇研究成果。录用的2篇研究论文分别以“Uncovering and Mitigating the Hidden Chasm: A Study on the Text-Text Domain Gap in Euphemism Identification”和“Mitigating Idiom Inconsistency: A Multi-Semantic Contrastive Learning Method for Chinese Idiom Reading Comprehension”为题,解决了委婉语识别中的文本域间差距和中文成语理解的语义不一致问题。
委婉语通常在社交媒体和暗网市场上使用,通过用合法的内容掩盖其真实含义来逃避平台监管。例如,在非法交易中使用“weed而不是“marijuana”。因此,委婉语识别,也就是将给定的委婉语(“weed”)映射到其特定的目标词(“marijuana”)这一任务,对于改进内容审核和打击地下市场至关重要。现有方法采用自监督方法来自动构建用于委婉语识别的标记训练数据集。然而,他们忽视了构建的源训练数据和目标测试数据之间的差异而导致的文本域差距,从而导致性能下降。在本文中,沙灜教授研究团队提出了文本与文本域差距,并根据数据分布和锥体效应解释了它是如何形成的。此外,为弥补这一差距,引入了特征对齐网络(FA-Net),它可对齐域内和跨域特征,从而缩小从训练数据到测试数据的域差距并改善委婉语识别模型的性能。研究团队将这个FA-Net网络应用于委婉语识别基础模型中,识别效果有了显著提升,创建了一个能够击败大语言模型的最优模型。
中文成语由于其隐喻意义往往与字面意义不同,导致了隐喻不一致,给机器阅读理解带来巨大挑战。此外,同一个成语在不同的语境中可能有不同含义,从而导致语境不一致。尽管基于深度学习的方法在成语阅读理解方面取得一定成功,但由于成语的隐喻不一致和语境不一致,现有方法仍难以准确捕捉成语表征。为应对这些挑战,沙灜教授研究团队提出了一种新模型,基于多语义对比学习(MSCLM),它可同时解决成语的隐喻不一致和语境不一致问题。为缓解隐喻不一致问题,本研究提出了基于Prompt方法的隐喻对比学习模块,以弥补成语字面意义和隐喻意义之间的语义差距。为缓解语境不一致问题,本研究提出了多语义交叉关注模块,以探索同一成语在不同语境中不同隐喻之间的语义特征。在多个中文成语阅读理解数据集上,研究团队提出的模型与当前多个最新模型(包括 GPT-3.5)进行了比较,实验结果表明MSCLM优于最先进的模型。
人工智能促进协会(AAAI)是具有重要影响力的国际学术组织,旨在推动智能思维与行为机制的科学理解及机器实现,并促进人工智能的科学研究和规范应用。我校信息学院博士生胡玉雪、硕士研究生吴明民分别为2篇论文第一作者,沙灜教授为通讯作者,该项研究工作获得国家自然科学基金面上项目等资助。