余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。
思路上就是:将文本中的词汇映射到向量空间,来计算两个向量的夹角余弦值,作为两个文本相似度的判断。
代码参考如下:
原址:http://blog.csdn.net/fjssharpsword/article/details/53693115
本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。