从零开始理解词向量：共现矩阵与语义表示 | 极客日志

PythonAI算法

从零开始理解词向量：共现矩阵与语义表示

综述由AI生成通过共现矩阵示例讲解自然语言处理中词向量的构建原理，演示了如何计算词语间的余弦相似度。文章分析了共现矩阵在稀疏性、词序丢失及复杂关系捕捉上的局限性，并简要介绍了现代词向量技术（如 Word2Vec）的演进方向，帮助读者建立对 NLP 向量表示的基础认知。

PgDevote发布于 2025/2/6更新于 2026/5/2919 浏览

从零开始理解词向量

在大模型时代，经常听到向量这个词，比如向量检索、相似度计算等。那么要怎样理解自然语言处理（NLP）中的向量呢？本文通过介绍一个简单的例子来理解向量，重点介绍共现矩阵。

共现矩阵

共现矩阵是自然语言处理中一种用来表示词语之间关系的工具。在共现矩阵中，每一行代表一个词语，每一列也代表一个词语，矩阵中的每个元素则表示对应行词语和列词语在一段文本或者一组文本中同时出现的次数。简而言之，共现矩阵告诉我们哪些词语在文本中经常一起出现，从而揭示它们之间的关联性。

构建示例

举例说明，有下面一个句子：

'小华喜欢吃苹果和橙子，他经常在学校买水果吃。'

将这句话按词语切分为：

'小华'、'喜欢'、'吃'、'苹果'、'和'、'橙子'、'他'、'经常'、'在'、'学校'、'买'、'水果'。

我们设置一个规则，即窗口大小为 2。然后，对于每个词，看它周围 2 个词内出现了哪些其他词语，如果出现了就在共现矩阵中对应位置加 1。

以"小华"为例，它周围 2 个词是"喜欢"、"吃"，所以我们在共现矩阵中"小华"行，"喜欢"、"吃"列的位置上加 1。

依此类推，我们可以构建出如下的共现矩阵（为了简洁起见，这里只展示部分共现关系）：

	小华	喜欢	吃	苹果	和	橙子	他	经常	在	学校	买	水果
小华	0	1	1	0	0	0	0	0	0	0	0	0
喜欢	1	0	1	1	1	0	0	0	0	0	0	0
吃	1	1	0	1	1	1	0	0	0	0	0	0
苹果	0	1	1	0	1	1	0	0	0	0	0	0
...	...	...	...	...	...	...	...	...	...	...	...	...

(注：实际矩阵为对称矩阵，此处仅示意逻辑)

词向量与相似度计算

有了这个共现矩阵之后，我们就可以用向量来表示词了。例如：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# 定义词汇表
words = ["小华", "喜欢", "吃", "苹果", "和", "橙子", "他", "经常", "在", "学校", "买", "水果"]
word_to_idx = {w: i for i, w in enumerate(words)}

# 初始化共现矩阵 (12x12)
count_matrix = np.zeros((len(words), len(words)))

# 模拟句子分词
tokens = ["小华", "喜欢", "吃", "苹果", "和", "橙子", "他", "经常", "在", "学校", "买", "水果"]
window_size = 2

# 构建共现矩阵
for i, word in enumerate(tokens):
    start = max(0, i - window_size)
    end = min(len(tokens), i + window_size + 1)
    for j in range(start, end):
        if i != j:
            neighbor = tokens[j]
            count_matrix[word_to_idx[word], word_to_idx[neighbor]] += 1

# 获取向量
apple_vec = count_matrix[word_to_idx["苹果"]]
orange_vec = count_matrix[word_to_idx["橙子"]]

# 计算余弦相似度
similarity = cosine_similarity([apple_vec], [orange_vec])[0][0]
print(f"苹果和橙子的余弦相似度：{similarity:.4f}")

从零开始理解词向量：共现矩阵与语义表示

从零开始理解词向量

共现矩阵

构建示例

词向量与相似度计算

更多推荐文章

相关免费在线工具

计算步骤

共现矩阵向量表示的局限性

现代词向量技术的演进

从共现矩阵到 SVD

Word2Vec 与神经网络

Python 代码实现示例

总结

更多推荐文章

相关免费在线工具

从零开始理解词向量：共现矩阵与语义表示

从零开始理解词向量

共现矩阵

构建示例

词向量与相似度计算

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

计算步骤

共现矩阵向量表示的局限性

现代词向量技术的演进

从共现矩阵到 SVD

Word2Vec 与神经网络

Python 代码实现示例

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具