如何计算两个文档的相似度（待续）

15 Nov 2019

在自然语言应用过程中，计算相似度是我们常见的问题，其准确率直接影响到文本聚类、文本泛化、QA检索等一系列问题，这里尝试复现我爱自然语言处理中基于genism的相似度计算方法。

Part1. 基础知识点

在实现相似度计算前，需要了解以下知识点，如果已有扎实基础的同学可以直接跳到Part2。

TF-IDF、余弦相似度、向量空间模型
参考资料：
(1)TF-IDF与余弦相似性的应用（一）：自动提取关键词
(2)TF-IDF与余弦相似性的应用（二）：找出相似文章
(3)现代信息检索第6讲向量空间模型王斌
SVD和LSI
SVD(Singular value decomposition)奇异值分解，这里需要扎实的线性代数知识，基础比较弱的同学可以先从麻省理工公开课：线性代数开始学起，基础好的同学可以看一下Singular Value Decomposition
了解完SVD后，再看LSI就轻松多了。

Part2. 了解gensim库

Part3. 使用gensim计算相似度

分类: 自然语言处理