如何计算两个文档的相似度(待续)
15 Nov 2019在自然语言应用过程中,计算相似度是我们常见的问题,其准确率直接影响到文本聚类、文本泛化、QA检索等一系列问题,这里尝试复现我爱自然语言处理中基于genism的相似度计算方法。
Part1. 基础知识点
在实现相似度计算前,需要了解以下知识点,如果已有扎实基础的同学可以直接跳到Part2。
-
TF-IDF、余弦相似度、向量空间模型
参考资料:
(1)TF-IDF与余弦相似性的应用(一):自动提取关键词
(2)TF-IDF与余弦相似性的应用(二):找出相似文章
(3)现代信息检索第6讲向量空间模型 王斌 -
SVD和LSI
SVD(Singular value decomposition)奇异值分解,这里需要扎实的线性代数知识,基础比较弱的同学可以先从麻省理工公开课:线性代数开始学起,基础好的同学可以看一下Singular Value Decomposition
了解完SVD后,再看LSI就轻松多了。
Part2. 了解gensim库
Part3. 使用gensim计算相似度
分类: 自然语言处理