基于 Word2Vec 与 RAG 的个人知识库构建指南 | 极客日志

PythonAI算法

基于 Word2Vec 与 RAG 的个人知识库构建指南

基于 Word2Vec 和 RAG 技术构建个人知识库的完整流程。涵盖环境搭建、数据预处理（中文分词、简繁转换）、模型训练、向量生成与相似度计算、向量数据库（Qdrant）部署以及 ChatGLM 大模型集成。通过本地化部署实现私有知识检索问答。

t ag发布于 2025/2/7更新于 2026/6/1428 浏览

方案选择

目前的方案基本上可以分为：

LLM + Fine-tune：对已有的大模型进行微调，这种方式成本高，效果不一定很好。
LLM + 外挂知识库：就是本文章着重介绍的。

环境搭建

Python

安装 conda

brew install miniconda

创建自定义虚拟环境

conda create -n [[name]]

激活虚拟环境

conda activate [[name]]

NLP 相关依赖安装

自然语言处理，简称 NLP，是人工智能的一个分支，它允许机器理解、处理和操纵人类语言。

Pytorch

conda install pytorch

Numpy

conda install numpy

Scipy

conda install scipy

Gensim

⚠️ gensim 依赖于 scipy 和 numpy，一定要先安装前两者再安装。Gensim 是一个著名的开源 Python 库，用于从原始的非结构化的文本中，无监督地学习到文本隐层的主题向量表达。Gensim 支持包括 TF-IDF，LDA 和 word2vec 在内的多种主题模型算法，因此很多算法工程师会将其作为主题建模的首选库。

conda install -c conda-forge gensim

NLP 基础概念

标记 (Token)：是具有已知含义的字符串，标记可以是单词、数字或只是像标点符号的字符。'你好'、'123'和'-'是标记的一些示例。
句子 (Sentence)：是一组意义完整的记号。'天气看起来不错'是一个句子的例子，句子的标记是【'天气', '看起来', '不错'】。
段落 (Paragraph)：是句子或短语的集合，也可以将句子视为段落的标记。
文档 (Documents)：可能是一个句子、一个段落或一组段落。发送给个人的文本消息是文档的一个示例。
语料 (Corpus)：通常是作为词袋的原始文档集合。语料库包括每个记录中每个单词的 id 和频率计数。语料库的一个例子是发送给特定人的电子邮件或文本消息的集合。
稀疏向量 (SparseVector)：通常，我们可以略去向量中多余的 0 元素。此时，向量中的每一个元素是一个 (index, value) 的元组。
模型 (Model)：是一个抽象的术语。定义了两个向量空间的变换（即从文本的一种向量表达变换为另一种向量表达）。

模型介绍

Word2vec

Word2Vec 是一种用于处理自然语言处理的模型，它是在 2013 年由 Google 的研究员 Mikolov 等人首次提出的。Word2Vec 通过训练海量的文本数据，能够将每个单词转换为一个具有一定维度的向量。这个向量就可以代表这个单词的语义。因为这个向量是在大量语境中学到的，所以这个向量能很好的表达这个单词的语义。Word2Vec 包括 Skip-Gram 和 CBOW 两种模型，主要是通过优化模型计算词与词之间的关系，从而获得词的向量表示。Skip-Gram 模型是通过一个词预测其上下文。举个例子，给定词汇'苹果'，Skip-Gram 模型的目标是生成它的上下文'吃了一个大'和'感觉真满足'。CBOW 模型是给定一个词的上下文词汇，预测这个词。比如，给定上下文'吃了一个大'和'感觉真满足'，CBOW 模型会预测中间的词汇，也就是'苹果'。这两种模型都是通过学习词汇与其上下文之间的关系，获得词的向量表示。这两个向量的距离可以用来衡量两个词语义上的相似度，距离越近意味着两个词语义上越相似。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

pip3 install opencc-python-reimplemented

model = Word2Vec(sentences, vector_size=300, window=5, epochs=10, compute_loss=True, callbacks=[epoch_logger])

print(model.vector_size)
print(model.total_train_time)
print(model.wv.most_similar('猫'))
print(model.wv.most_similar('吉林大学'))

300
4965.289603250014
[('狗', 0.7110657691955566), ('猫咪', 0.671169638633728), ('小猫', 0.6650978326797485), ('兔子', 0.6501124501228333), ('小狗', 0.6325607691955566), ('小猫咪', 0.6306896805763245), ('犬', 0.620497543429565), ('宠物猫', 0.6035280227661133), ('吉娃娃', 0.5858094096183777), ('宠物狗', 0.5799086393902588)]
[('东北师范大学', 0.7164520621299744), ('大连理工大学', 0.6689789295196533), ('哈尔滨工程大学', 0.6448072791099548), ('哈尔滨工业大学', 0.6403888888888888), ('西北农林科技大学', 0.6375338888888888), ('东北财经大学', 0.6347338888888888), ('中国医科大学', 0.630100429058075), ('杭州大学', 0.6278635353535353), ('华东政法学院', 0.6263535353535353), ('白求恩医科大学', 0.626026346741)]

from typing import List, Dict
import numpy as np
from tqdm import tqdm

def encode(self, sentences: List[str], show_progress_bar: bool = False, input_is_string: bool = False) -> np.ndarray:
    all_embeddings = []
    for sentence in tqdm(sentences, desc='Word2Vec Embeddings', disable=not show_progress_bar):
        emb = []
        count = 0
        for word in sentence:
            # 过滤停用词
            if word in self.stopwords:
                continue
            # 调用词向量
            if word in self.w2v.key_to_index:
                emb.append(self.w2v.get_vector(word, norm=True))
                count += 1
            else:
                if len(word) == 1:
                    continue
                # 再切分
                ws = self.jieba.lcut(word, cut_all=True, HMM=True)
                for w in ws:
                    if w in self.w2v.key_to_index:
                        emb.append(self.w2v.get_vector(w, norm=True))
                        count += 1
        tensor_x = np.array(emb).sum(axis=0)  # 纵轴相加
        if count > 0:
            avg_tensor_x = np.divide(tensor_x, count)
        else:
            avg_tensor_x = np.zeros(self.w2v.vector_size, dtype=float)
        all_embeddings.append(avg_tensor_x)
    all_embeddings = np.array(all_embeddings, dtype=float)
    if input_is_string:
        all_embeddings = all_embeddings[0]

    return all_embeddings

def split_sentences(text):
    sent_delimiters = ['。', '？', '！', '?', '!', '.']
    for delimiter in sent_delimiters:
        text = text.replace(delimiter, '\n')
    sentences = text.split('\n')
    sentences = [sent for sent in sentences if sent.strip()]
    return sentences

def cosine_similarity(vec1, vec2):
    norm_vec1 = np.linalg.norm(vec1)
    norm_vec2 = np.linalg.norm(vec2)
    if norm_vec1 == 0 or norm_vec2 == 0:
        return 0
    else:
        dot_product = np.dot(vec1, vec2)
        return dot_product / (norm_vec1 * norm_vec2)

使用以下背景段落来回答问题，如果段落内容不相关就返回未查到相关信息：
背景：{{knowledge}}
问题：{{userInput}}

docker pull qdrant/qdrant

docker run -p 6333:6333 -p 6334:6334 \
    -v $(pwd)/qdrant_storage:/qdrant/storage:z \
    qdrant/qdrant

pip3 install qdrant-client

from qdrant_client import QdrantClient

client = QdrantClient("localhost", port=6333)

conda create -n chatglm python=3.10
conda activate chatglm

cd /tmp
git clone https://github.com/THUDM/ChatGLM2-6B

pip3 install -r requirements.txt

# 安装 pytorch nightly 版本
pip3 install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu

GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/THUDM/chatglm2-6b

python web_demo.py
streamlit run web_demo2.py

基于 Word2Vec 与 RAG 的个人知识库构建指南

方案选择

环境搭建

Python

NLP 相关依赖安装

Pytorch

Numpy

Scipy

Gensim

NLP 基础概念

模型介绍

Word2vec

同类型模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

数据处理

中文 Wiki

数据提取

数据处理

OpenCC

清华大学自然语言处理实验室数据集

数据提取

数据处理

数据合并

模型训练

模型使用

词向量生成

句向量生成

文档分块

向量相似度计算

知识库检索

知识库端

查询端

向量数据库

定义

主流向量数据库

知识库持久化

Qdrant 部署

ChatGLM 大模型部署

本机配置

环境安装

创建虚拟 & 激活虚拟环境

下载源码

安装依赖

下载模型文件

部署模型

参考

组合起来！

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具