%0 Journal Article %A 马慧芳 %A 刘文 %A 李志欣 %A 蔺想红 %T 融合耦合距离区分度和强类别特征的短文本相似度计算方法 %D 2019 %R 10.3969/j.issn.0372-2112.2019.06.021 %J 电子学报 %P 1331-1336 %V 47 %N 6 %X 短文本相似度计算在社会网络、文本挖掘和自然语言处理等领域中起着至关重要的作用.针对短文本内容简短、特征稀疏等特点,以及传统的短文本相似度计算忽略类别信息等问题,提出一种融合耦合距离区分度和强类别特征的短文本相似度计算方法.一方面,在整个短文本语料库中利用两个共现词之间的距离计算词项共现距离相关度,并以此来对词项加权从而捕获词项间内联和外联关系,得到短文本的耦合距离区分度相似度;另一方面,基于少量带类别标签的监督数据提取每类中强类别区分能力的特征项作为强类别特征集合,并利用词项的上下文来对强类别特征语义消歧,然后基于文本间包含相同类别的强类别特征数量来衡量文本间的相似度.最后,本文结合耦合距离区分度和强类别特征来衡量短文本的相似度.经实验证明本文提出的方法能够提高短文本相似度计算的准确率. %U https://www.ejournal.org.cn/CN/10.3969/j.issn.0372-2112.2019.06.021