学术科研

沙瀛来学院作《社交网络变体词的识别》主题报告

发布日期:2018-10-24 发表者:陈治国 浏览次数:



2018年10月20日,中国科学院信息工程研究所的沙瀛副研究员做了一场《社交网络变体词的识别》的精彩报告,信息学院20余名师生参加了报告。


沙瀛老师以一类不规范、不敏感的词代替目标词为例,介绍了变形词研究如何用以追踪审查、分析行话黑话,以及进行秘密通信等。沙老师提到,通常,变形词基于深层语义具有一对多的特点,而同时有些变体词会成为规范词。由于变形词通常含有歧义,与上下文环境缺乏其字面所感知意义的关联,根据任务映射,历史关系获得,这些研究在社交媒体、舆情监控和自然语言处理中均为有意义的问题。


考虑到中文变形词研究通常在研究初始的分词阶段即产生错误,沙瀛老师采取了变体词初步标注和增益向量的方法来进行纠错。通过搭建两层LSTM+CRF,最后增加一个词的增益向量,成功利用词片段信息(包括内聚互信息,左右邻字熵,位置成词概率,边界比,交叉词项比)等提高了识别变形词的精准度,在同类算法中居于最优。沙瀛老师的报告兼顾介绍基础方法和前沿进展,在会后讨论中获得诸多肯定与好评。