摘要 返回
     
基于词性和关键词的短文本相似度计算方法
 

:Word Mover’ s Distance (WMD) 是近年来非常热门的一个计算文本距离的算法, 可以较为准确地进行文本相似度测量, 被广泛应用于舆情分析, 内容分类等。在WMD算法中, 最重要的是将词进行词袋化处理, 得到300维度的词向量, 由于在得到词向量时, 词的权重是随机分配的, 所以最终得到的相似文本内容正确率不稳定。文章在WMD算法基础上, 提取关键词, 结合词性分类, 给不同词性的词语分配不同的权重, 从而进一步优化WMD算法, 提高分类的准确率。

 
(全文阅读请到中国期刊全文数据库)



 
   
读者园地  
   
 
 
地址:  杭州市五常港路121号西溪创智中心四号楼807室    《计算机时代》编辑部
邮编:  310012      电话:  (0571)85118010   (0571)85119435   E-mail:  Computer_era @ vip.163.com
浙ICP备10035352号