gensim的LSI模型来计算文档的相似度


[python]  view plain copy
  1. from gensim import corpora,models,similarities  
  2. dictionary=corpora.Dictionary.load('/tmp/deerwester.dict')  
  3. corpus=corpora.MmCorpus('/tmp/deerwester.mm')  
  4. print(corpus)  
  5.   
  6. lsi=models.LsiModel(corpus,id2word=dictionary,num_topics=2)  
  7. doc="human computer interaction"  
  8. vec_bow=dictionary.doc2bow(doc.lower().split())  
  9. vec_lsi=lsi[vec_bow]  #convert the query to LSI space  
  10. print(vec_lsi)  
  11.   
  12. #transform corpus to space and index it  
  13. index=similarities.MatrixSimilarity(lsi[corpus])  
  14.   
  15. index.save('/tmp/deerwester.index')  
  16. sims=index[vec_lsi]  
  17. sims=sorted(enumerate(sims),key=lambda item:-item[1])  
  18.   
  19. from pprint import pprint  
  20. pprint(sims)  

利用gensim的LSI模型计算文档的相似度


智能推荐

注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
© 2014-2019 ITdaan.com 粤ICP备14056181号  

赞助商广告