2018年10月20日,中国科学院信息工程研究所的沙瀛副研究员做了一场《社交网络变体词的识别》的精彩报告,信息学院20余名师生参加了报告。
沙瀛老师以一类不规范、不敏感的词代替目标词为例,介绍了变形词研究如何用以追踪审查、分析行话黑话,以及进行秘密通信等。沙老师提到,通常,变形词基于深层语义具有一对多的特点,而同时有些变体词会成为规范词。由于变形词通常含有歧义,与上下文环境缺乏其字面所感知意义的关联,根据任务映射,历史关系获得,这些研究在社交媒体、舆情监控和自然语言处理中均为有意义的问题。
考虑到中文变形词研究通常在研究初始的分词阶段即产生错误,沙瀛老师采取了变体词初步标注和增益向量的方法来进行纠错。通过搭建两层LSTM+CRF,最后增加一个词的增益向量,成功利用词片段信息(包括内聚互信息,左右邻字熵,位置成词概率,边界比,交叉词项比)等提高了识别变形词的精准度,在同类算法中居于最优。沙瀛老师的报告兼顾介绍基础方法和前沿进展,在会后讨论中获得诸多肯定与好评。
上一篇:自然语言处理和数据科学前沿研讨会
下一篇:学术预告:社交网络变体词的识别
版权所有:华中农业大学信息学院 地址:湖北省武汉市南湖狮子山街一号 邮编:430070
联系电话:027-87288509 招生就业电话:027-87286876 电子邮件:coi@mail.hzau.edu.cn 新闻投稿邮箱:coi-xinwen@mail.hzau.edu.cn