Latent semantic analysis(Latent semantic indexing)
Introduction
LSA基于SVD。
LSA将词和文档映射到潜在语义空间,从而去除了原始向量空间中的一些“噪音”,提高了信息检索的精确度。
Example 1
将Index Words和title构成如下矩阵
做SVD分解后结果,左奇异向量表示词的一些特性,右奇异向量表示文档的一些特性,中间的奇异值矩阵表示重要性。
将左奇异向量和右奇异向量都取前2维,投影至平面(reference中取后2维,根据奇异值矩阵,前2维的重要性更大,故我认为去前2位更合理,下图为reference中图,应做修改)
之后做聚类,可找到近义词。
Example 2
原文档
构成矩阵
奇异值分解
保留奇异值矩阵中最大的两个以及对应的左奇异向量和右奇异向量
结果分析:
- hunman单词本来与C2无关,但是LSA后,为0.4,可见LSA后呈现出潜在的语义
- 左奇异向量与index word相关和右奇异向量与文档相关。对左奇异向量做聚类找出近义词。
LSA模型的优缺点
- 优点: 可以把原文本特征空间降维到一个低维语义空间;减轻一词多义和一义多词问题。
- 缺点: 在SVD分解的时候,特别耗时,而且一般而言一个文本特征矩阵维数都会特别庞大,SVD此时就更加耗时;而且,LSA缺乏严谨的数理统计基础。
Reference
http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html
http://blog.csdn.net/wangran51/article/details/7408406