基于 Llama 3 构建 RAG 语音助手：集成 Qdrant、Whisper 与 LangChain | 极客日志

PythonAI算法

基于 Llama 3 构建 RAG 语音助手：集成 Qdrant、Whisper 与 LangChain

介绍利用 Llama 3、Whisper、LangChain 和 Qdrant 构建本地 RAG 语音助手的完整流程。涵盖环境配置、数据管道搭建、文档加载与分块、向量嵌入生成、Qdrant 向量数据库存储与检索，以及通过 Whisper 实现文本转语音功能。提供具体代码示例及性能优化建议，助力开发者快速实现智能语音交互系统。

CodeArtist发布于 2025/2/7更新于 2026/7/2444 浏览

基于 Llama 3 构建 RAG 语音助手

本教程介绍如何使用 Llama 3、Whisper、LangChain 和 Qdrant 构建一个本地 RAG 语音助手。我们将使用以下技术栈：

Whisper：由 OpenAI 开发，在将口语转录为文本方面表现出色。
LLaMA 3：提供出色的性能。
LangChain：用于协调组件以处理复杂用户交互。
Qdrant：向量数据库，高效处理高维数据检索。
RAG：结合检索和生成模型，利用信息数据库生成上下文相关的回答。

环境准备

在开始之前，请确保准备好以下资源：

GPU：建议使用 VRAM 大于 24GB 的 GPU（如 RTX 4090）或 Google Colab A100。
访问 LLaMA 3：确保可访问 Hugging Face 上的 LLaMA 3 模型。

安装依赖库

打开命令行界面，创建虚拟环境并安装依赖：

mkdir llama3-whisper && cd llama3-whisper
python3 -m venv llama3-whisper-env
source llama3-whisper-env/bin/activate

安装核心库：

pip3 install --no-deps torch==2.0.0 torchvision==0.15.1 torchaudio==2.0.1
pip3 install openai
pip3 install -q transformers==4.33.0
pip3 install -q accelerate==0.22.0
pip3 install -q einops==0.6.1
pip3 install -q langchain==0.0.300
pip3 install -q xformers==0.0.21
pip3 install -q bitsandbytes==0.41.1
pip3 install -q sentence_transformers==2.2.2
pip3 install arxiv
pip3 install -q ipykernel jupyter
pip3 install -q --upgrade huggingface_hub

安装数据处理相关库：

pip3 install unstructured
pip3 install "unstructured[pdf]"
apt-get install -y poppler-utils
pip3 install pytesseract
apt-get install -y tesseract-ocr
pip3 install --upgrade qdrant-client
pip3 install WhisperSpeech

huggingface-cli login

导入库

导入所有必要的库，支持模型交互、文档处理和嵌入管理。

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
from langchain.llms import HuggingFacePipeline
from langchain.vectorstores import Qdrant
from langchain.embeddings import HuggingFaceEmbeddings
 langchain.document_loaders  DirectoryLoader
 langchain.text_splitter  RecursiveCharacterTextSplitter
 torch

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 伪代码示例：实际需根据 arxiv 库实现
# from arxiv import Search, Result
# results = Search(query="LLM", max_results=10).results()

loader = DirectoryLoader('./papers', glob="**/*.pdf")
documents = loader.load()
splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
chunks = splitter.split_documents(documents)

model_id = "meta-llama/Meta-Llama-3-8B"
device = "cuda"
dtype = torch.bfloat16

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map=device,
    torch_dtype=dtype
)

query_pipeline = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    torch_dtype=torch.float16,
    max_length=1024,
    device_map="auto"
)

llm = HuggingFacePipeline(pipeline=query_pipeline)

embeddings = HuggingFaceEmbeddings(
    model_name="sentence-transformers/all-mpnet-base-v2",
    model_kwargs={'device': 'cuda'}
)

from qdrant_client import QdrantClient
client = QdrantClient(path="./qdrant_db")

db = Qdrant.from_documents(
    documents=chunks,
    embeddings=embeddings,
    path="./qdrant_db",
    collection_name="voice_assistant_documents"
)

client = QdrantClient(path="./qdrant_db")
db = Qdrant(client=client, collection_name="my_documents", embeddings=embeddings)

retriever = db.as_retriever()
qa = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=retriever,
    verbose=True
)

def test_rag(qa, query):
    result = qa({"query": query})
    return result["result"]

from whisperspeech.pipeline import Pipeline as S2APipeline
pipe = S2APipeline(s2a_ref='collabora/whisperspeech:s2a-q4-tiny-en+pl.model')

query = "如何使用 LLMs 来理解和与复杂的 3D 世界互动"
aud = test_rag(qa, query)
pipe.generate_to_notebook(f"{aud}")

# 使用 whisper-1 模型将音频文件转录回文本

基于 Llama 3 构建 RAG 语音助手：集成 Qdrant、Whisper 与 LangChain

基于 Llama 3 构建 RAG 语音助手

环境准备

安装依赖库

导入库

更多推荐文章

相关免费在线工具

处理语音助手的数据

检索增强生成 (RAG) 概述

模型配置

设置查询管道

初始化嵌入模型

集成 Qdrant 用于嵌入存储和检索

设置检索器

测试和可视化 RAG 系统

集成 Llama 3 和 Whisper 进行文本转语音

优化建议

更多推荐文章

相关免费在线工具

基于 Llama 3 构建 RAG 语音助手：集成 Qdrant、Whisper 与 LangChain

基于 Llama 3 构建 RAG 语音助手

环境准备

安装依赖库

导入库

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

处理语音助手的数据

检索增强生成 (RAG) 概述

模型配置

设置查询管道

初始化嵌入模型

集成 Qdrant 用于嵌入存储和检索

设置检索器

测试和可视化 RAG 系统

集成 Llama 3 和 Whisper 进行文本转语音

优化建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具