LSA(LSI)

Latent semantic analysis(Latent semantic indexing)

Introduction

LSA基于SVD。
LSA将词和文档映射到潜在语义空间,从而去除了原始向量空间中的一些“噪音”,提高了信息检索的精确度。

Example 1

将Index Words和title构成如下矩阵
LSA-1
做SVD分解后结果,左奇异向量表示词的一些特性,右奇异向量表示文档的一些特性,中间的奇异值矩阵表示重要性。
LSA-2
将左奇异向量和右奇异向量都取前2维,投影至平面(reference中取后2维,根据奇异值矩阵,前2维的重要性更大,故我认为去前2位更合理,下图为reference中图,应做修改)
之后做聚类,可找到近义词。
LSA-3

Example 2

原文档
LSA-4
构成矩阵
LSA-5
奇异值分解
LSA-6
保留奇异值矩阵中最大的两个以及对应的左奇异向量和右奇异向量
LSA-7

结果分析:

  1. hunman单词本来与C2无关,但是LSA后,为0.4,可见LSA后呈现出潜在的语义
  2. 左奇异向量与index word相关和右奇异向量与文档相关。对左奇异向量做聚类找出近义词。

LSA模型的优缺点

  • 优点: 可以把原文本特征空间降维到一个低维语义空间;减轻一词多义和一义多词问题。
  • 缺点: 在SVD分解的时候,特别耗时,而且一般而言一个文本特征矩阵维数都会特别庞大,SVD此时就更加耗时;而且,LSA缺乏严谨的数理统计基础。

Reference

http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html
http://blog.csdn.net/wangran51/article/details/7408406