如何计算两个文档的相似度(待续)

  在自然语言应用过程中,计算相似度是我们常见的问题,其准确率直接影响到文本聚类、文本泛化、QA检索等一系列问题,这里尝试复现我爱自然语言处理中基于genism的相似度计算方法。

Part1. 基础知识点

  在实现相似度计算前,需要了解以下知识点,如果已有扎实基础的同学可以直接跳到Part2。

  1. TF-IDF、余弦相似度、向量空间模型
    参考资料:
    (1)TF-IDF与余弦相似性的应用(一):自动提取关键词
    (2)TF-IDF与余弦相似性的应用(二):找出相似文章
    (3)现代信息检索第6讲向量空间模型 王斌

  2. SVD和LSI
    SVD(Singular value decomposition)奇异值分解,这里需要扎实的线性代数知识,基础比较弱的同学可以先从麻省理工公开课:线性代数开始学起,基础好的同学可以看一下Singular Value Decomposition
    了解完SVD后,再看LSI就轻松多了。

Part2. 了解gensim库

Part3. 使用gensim计算相似度

分类: 自然语言处理