《数学之美》拾遗——潜在语义索引(LSI)

《数学之美》拾遗——潜在语义索引(LSI)

一、潜在语义索引的提出      潜在语义索引(LSI),又称为潜在语义分析(LSA),是在信息检索领域提出来的一个概念。主要是在解决两类问题,一类是一词多义,如“bank”一词,可以指银行,也可以指河岸;另一类是一义多词,即同义词问题,如“car”和“automobile”具有相同的含义,如果在检索的过程中,在计算这两类问题的相似性时,依靠余弦相似性的方法将不能很好的处理这样的问题。所以提出了潜在语义索引的方法,利用SVD降维的方法将词项和文本映射到一个新的空间。

二、潜在语义索引的含义      潜在语义索引依靠SVD,具体SVD的操作过程可以参见《》。       SVD的操作过程是将词项-文本矩阵

www.zeeklog.com  - 《数学之美》拾遗——潜在语义索引(LSI)

进行分解,分解为:

www.zeeklog.com  - 《数学之美》拾遗——潜在语义索引(LSI)


   其中,

www.zeeklog.com  - 《数学之美》拾遗——潜在语义索引(LSI)

为左奇异矩阵,

www.zeeklog.com  - 《数学之美》拾遗——潜在语义索引(LSI)

是对角矩阵,对角线上是奇异值,

www.zeeklog.com  - 《数学之美》拾遗——潜在语义索引(LSI)

称为右奇异矩阵。       我们取前

www.zeeklog.com  - 《数学之美》拾遗——潜在语义索引(LSI)

个奇异值,构成新的矩阵,这样就可以重构矩阵

www.zeeklog.com  - 《数学之美》拾遗——潜在语义索引(LSI)

www.zeeklog.com  - 《数学之美》拾遗——潜在语义索引(LSI)


   这样,我们便将原来的空间映射到了新的

www.zeeklog.com  - 《数学之美》拾遗——潜在语义索引(LSI)

维空间。       我们对一个具体的问题进行处理:

www.zeeklog.com  - 《数学之美》拾遗——潜在语义索引(LSI)


   横坐标表示词“ship”,“boat”,“ocean”,“wood”和“tree”,纵坐标为文章“d1”,“d2”,“d3”,“d4”,“d5”和“d6”。我们对其进行奇异值分解,得到的

www.zeeklog.com  - 《数学之美》拾遗——潜在语义索引(LSI)

矩阵为:

www.zeeklog.com  - 《数学之美》拾遗——潜在语义索引(LSI)


   我们取

www.zeeklog.com  - 《数学之美》拾遗——潜在语义索引(LSI)

的值为2,

www.zeeklog.com  - 《数学之美》拾遗——潜在语义索引(LSI)

的值即为我们要隐射的空间,此时左奇异向量

www.zeeklog.com  - 《数学之美》拾遗——潜在语义索引(LSI)

为:

www.zeeklog.com  - 《数学之美》拾遗——潜在语义索引(LSI)


   这表第一个词与第一维空间更接近,依次类推,同样,我们可以得到右奇异矩阵

www.zeeklog.com  - 《数学之美》拾遗——潜在语义索引(LSI)

www.zeeklog.com  - 《数学之美》拾遗——潜在语义索引(LSI)


   这表第一列表示文章“d1”与第一位空间更接近。       中间矩阵

www.zeeklog.com  - 《数学之美》拾遗——潜在语义索引(LSI)


   表示的是词和文章的相关关系。

三、实验的仿真      对于“”中的数据:

www.zeeklog.com  - 《数学之美》拾遗——潜在语义索引(LSI)


   进行奇异值分解,分解完的三个矩阵分别为:

www.zeeklog.com  - 《数学之美》拾遗——潜在语义索引(LSI)


   

www.zeeklog.com  - 《数学之美》拾遗——潜在语义索引(LSI)


   

www.zeeklog.com  - 《数学之美》拾遗——潜在语义索引(LSI)


   
   这里可以看到9个奇异值的条状图:

www.zeeklog.com  - 《数学之美》拾遗——潜在语义索引(LSI)


   我们可以看到不同奇异值的重要性程度,选取前3个奇异值。       此时得到三个修改后的矩阵:

www.zeeklog.com  - 《数学之美》拾遗——潜在语义索引(LSI)


   

www.zeeklog.com  - 《数学之美》拾遗——潜在语义索引(LSI)


   

www.zeeklog.com  - 《数学之美》拾遗——潜在语义索引(LSI)


   依据不同的值,我们便可以将词和文章分到不同的维中。

参考文献  1、《数学之美》 吴军 著. 矩阵运算和文本处理中的两个分类问题. P137-142.   2、《An Introduction to Information Retrieval》Manning. Latent semantic indexing. P449-454.

Read more

🚀Zeek.ai一款基于 Electron 和 Vite 打造的跨平台(支持 Windows、macOS 和 Linux) AI 浏览器

🚀Zeek.ai一款基于 Electron 和 Vite 打造的跨平台(支持 Windows、macOS 和 Linux) AI 浏览器

是一款基于 Electron 和 Vite 打造的跨平台(支持 Windows、macOS 和 Linux) AI 浏览器。 集成了 SearXNG AI 搜索、开发工具集合、 市面上最流行的 AI 工具门户,以及代码编写和桌面快捷工具等功能, 通过模块化的 Monorepo 架构,提供轻量级、可扩展且高效的桌面体验, 助力 AI 驱动的日常工作流程。

By Ne0inhk
超快速,使用ChatGPT编写回归和分类算法

超快速,使用ChatGPT编写回归和分类算法

本文将使用一些 ChatGPT 提示,这些提示对于数据科学家在工作时非常重要。 微信搜索关注《Python学研大本营》,加入读者群,分享更多精彩 以下是一些示例ChatGPT 提示的列表以及数据科学家的响应。 ChatGPT 提示 为决策树回归算法生成 python 代码。 下面是使用scikit-learn在 Python 中进行决策树回归的示例代码: import numpy as np import matplotlib.pyplot as plt from sklearn.tree import DecisionTreeRegressor # Generate random data rng = np.random.default_rng() x = 5 * rng.random(100) y = np.sin(x) + 0.

By Ne0inhk
力扣每日一题:993.二叉树的堂兄弟节点 深度优先算法

力扣每日一题:993.二叉树的堂兄弟节点 深度优先算法

993.二叉树的堂兄弟节点 难度:简单 题目: 在二叉树中,根节点位于深度 0 处,每个深度为 k 的节点的子节点位于深度 k+1 处。 如果二叉树的两个节点深度相同,但 父节点不同 ,则它们是一对堂兄弟节点。 我们给出了具有唯一值的二叉树的根节点 root ,以及树中两个不同节点的值 x 和 y 。 只有与值 x 和 y 对应的节点是堂兄弟节点时,才返回 true 。否则,返回 false。 示例: 示例 1: 输入:root = [1,2,3,4], x = 4, y = 3 输出:false

By Ne0inhk