RAG 知识库搭建实战：基于 Word2Vec 与 ChatGLM 的本地部署 | 极客日志

PythonAI算法

RAG 知识库搭建实战：基于 Word2Vec 与 ChatGLM 的本地部署

基于 RAG 架构的知识库搭建流程。涵盖环境配置、Word2Vec 模型训练、中文文本预处理、向量数据库 Qdrant 部署以及 ChatGLM 大模型集成。通过文档分块、向量化存储与相似度检索，实现大模型上下文增强问答，提供了一套完整的本地化私有知识库解决方案，并对实际生产中的优化策略进行了总结。

不知所云发布于 2025/2/7更新于 2026/7/2440 浏览

RAG 知识库搭建指南

方案选择

目前的方案基本上可以分为：

LLM + Fine-tune：对已有的大模型进行微调，这种方式成本高，效果不一定很好。
LLM + 外挂知识库：即本文着重介绍的 RAG（Retrieval-Augmented Generation）架构，通过检索外部知识增强生成效果。

环境搭建

Python 环境

安装 conda

brew install miniconda

创建自定义虚拟环境

conda create -n rag_env python=3.10

激活虚拟环境

conda activate rag_env

NLP 相关依赖安装

自然语言处理（NLP）是人工智能的一个分支，允许机器理解、处理和操纵人类语言。

PyTorch

conda install pytorch torchvision torchaudio -c pytorch

Numpy & Scipy

conda install numpy scipy

Gensim

⚠️ Gensim 依赖于 scipy 和 numpy，一定要先安装前两者再安装 gensim。Gensim 是一个著名的开源 Python 库，用于从原始的非结构化的文本中，无监督地学习到文本隐层的主题向量表达。支持 TF-IDF、LDA 和 word2vec 等多种主题模型算法。

conda install -c conda-forge gensim

NLP 基础概念

标记 (Token)：是具有已知含义的字符串，可以是单词、数字或标点符号。
句子 (Sentence)：是一组意义完整的记号集合。
段落 (Paragraph)：是句子或短语的集合。
文档 (Documents)：可能是一个句子、一个段落或一组段落。
语料 (Corpus)：通常是作为词袋的原始文档集合。
稀疏向量 (SparseVector)：通常略去向量中多余的 0 元素，表示为 (index, value) 元组。
模型 (Model)：定义了两个向量空间的变换。

模型介绍

Word2Vec

Word2Vec 是一种用于处理自然语言处理的模型，由 Google 研究员 Mikolov 等人于 2013 年提出。它通过训练海量文本数据，将每个单词转换为具有一定维度的向量，代表该单词的语义。

Word2Vec 包括 Skip-Gram 和 CBOW 两种模型：

Skip-Gram：通过一个词预测其上下文。
CBOW：给定一个词的上下文词汇，预测这个词。

这两种模型通过学习词汇与其上下文之间的关系获得词的向量表示，向量距离可衡量词语义相似度。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

pip3 install opencc-python-reimplemented

model = Word2Vec(sentences, vector_size=300, window=5, epochs=10, compute_loss=True)

print(model.vector_size)
print(model.total_train_time)
print(model.wv.most_similar('猫'))
print(model.wv.most_similar('吉林大学'))

def encode(self, sentences: List[str], show_progress_bar: bool = False) -> ndarray:
    all_embeddings = []
    for sentence in tqdm(sentences, desc='Word2Vec Embeddings', disable=not show_progress_bar):
        emb = []
        count = 0
        for word in sentence:
            if word in self.stopwords:
                continue
            if word in self.w2v.key_to_index:
                emb.append(self.w2v.get_vector(word, norm=True))
                count += 1
            else:
                if len(word) == 1:
                    continue
                ws = self.jieba.lcut(word, cut_all=True, HMM=True)
                for w in ws:
                    if w in self.w2v.key_to_index:
                        emb.append(self.w2v.get_vector(w, norm=True))
                        count += 1
        tensor_x = np.array(emb).sum(axis=0)
        if count > 0:
            avg_tensor_x = np.divide(tensor_x, count)
        else:
            avg_tensor_x = np.zeros(self.w2v.vector_size, dtype=float)
        all_embeddings.append(avg_tensor_x)
    return np.array(all_embeddings, dtype=float)

def split_sentences(text):
    sent_delimiters = ['。', '？', '！', '?', '!', '.']
    for delimiter in sent_delimiters:
        text = text.replace(delimiter, '\n')
    sentences = [sent for sent in text.split('\n') if sent.strip()]
    return sentences

def cosine_similarity(vec1, vec2):
    norm_vec1 = numpy.linalg.norm(vec1)
    norm_vec2 = numpy.linalg.norm(vec2)
    if norm_vec1 == 0 or norm_vec2 == 0:
        return 0
    dot_product = numpy.dot(vec1, vec2)
    return dot_product / (norm_vec1 * norm_vec2)

使用以下背景段落来回答问题，如果段落内容不相关就返回未查到相关信息：
背景：{{knowledge}}
问题：{{userInput}}

docker pull qdrant/qdrant

docker run -p 6333:6333 -p 6334:6334 \
    -v $(pwd)/qdrant_storage:/qdrant/storage:z \
    qdrant/qdrant

pip3 install qdrant-client

from qdrant_client import QdrantClient
client = QdrantClient("localhost", port=6333)

conda create -n chatglm python=3.10
conda activate chatglm

cd /tmp
git clone https://github.com/THUDM/ChatGLM2-6B

pip3 install -r requirements.txt
# 安装 pytorch nightly 版本
pip3 install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu

GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/THUDM/chatglm2-6b

python web_demo.py
streamlit run web_demo2.py

RAG 知识库搭建实战：基于 Word2Vec 与 ChatGLM 的本地部署

RAG 知识库搭建指南

方案选择

环境搭建

Python 环境

NLP 相关依赖安装

PyTorch

Numpy & Scipy

Gensim

NLP 基础概念

模型介绍

Word2Vec

同类型模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

数据处理

中文 Wiki 数据集

数据提取

数据处理

OpenCC

清华大学自然语言处理实验室数据集

数据合并

模型训练

模型使用

词向量生成

句向量生成

文档分块

向量相似度计算

知识库检索流程

知识库端

查询端

向量数据库

主流向量数据库

Qdrant 部署

ChatGLM 大模型部署

本机配置

环境安装

部署模型

总结与优化建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具