基于 LangChain 集成本地部署的 Llama3.1 大模型 | 极客日志

PythonAI算法

基于 LangChain 集成本地部署的 Llama3.1 大模型

如何在本地通过 Ollama 部署 Llama3.1 大模型，并结合 LangChain 框架实现 Python 应用集成。内容涵盖环境配置、模型拉取、基础调用、流式输出及性能优化方案，帮助开发者构建私有化 AI 应用。

极光发布于 2025/2/6更新于 2026/6/321 浏览

基于 LangChain 集成本地部署的 Llama3.1 大模型

概述

随着大语言模型（LLM）技术的快速发展，如何在本地环境中安全、高效地运行和集成这些模型成为开发者的关注重点。Ollama 是一个轻量级的工具，允许用户在本地机器上轻松运行开源大模型，而 LangChain 则是构建基于 LLM 应用的强大框架。本文将详细介绍如何在本地部署 Llama3.1 模型，并通过 LangChain 实现 Python 应用集成，涵盖环境配置、模型管理、代码调用及性能优化等完整流程。

一、环境准备

1. 系统要求

操作系统：Windows 10/11, macOS (Intel/Apple Silicon), Linux (Ubuntu/CentOS 等)。
内存：建议至少 8GB RAM，运行 7B 参数模型推荐 16GB+。
Python 版本：Python 3.9 或更高版本。

2. 安装 Python 依赖

确保已安装 Python 环境，并创建虚拟环境以隔离依赖：

python -m venv langchain_env
# Windows 激活
langchain_env\Scripts\activate
# Linux/Mac 激活
source langchain_env/bin/activate

安装核心库：

pip install langchain
pip install langchain-ollama
pip install langchain-community

二、部署 Ollama 与 Llama3.1

1. 安装 Ollama

访问 Ollama 官网下载对应系统的安装包，或通过包管理器安装。

macOS/Linux:

curl -fsSL https://ollama.com/install.sh | sh

Windows: 直接下载 .exe 安装包运行即可。

安装完成后，验证服务是否启动：

ollama --version

2. 拉取 Llama3.1 模型

Ollama 支持多种量化版本的模型。Llama3.1 提供了 8B 和 70B 等不同规格。

拉取 8B 版本（适合普通 PC）:
```
ollama pull llama3.1
```
拉取 70B 版本（需要高性能硬件）:
```
ollama pull llama3.1:70b
```

查看已下载的模型列表：

ollama list

3. 本地测试模型

通过命令行直接与模型交互，验证模型是否正常响应：

ollama run llama3.1

输入问题如 "Hello"，观察模型回复。若出现对话界面且无报错，说明本地推理服务正常。

三、LangChain 集成方案

1. 基础文本生成

使用类连接本地模型，构建简单的提示链。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

OllamaLLM

from langchain_core.prompts import ChatPromptTemplate
from langchain_ollama.llms import OllamaLLM

# 定义提示模板
template = """
Question: {question}
Answer: Let's think step by step.
请用简体中文回复。
"""

prompt = ChatPromptTemplate.from_template(template)
model = OllamaLLM(model="llama3.1")

# 构建链
chain = prompt | model

# 执行调用
result = chain.invoke({"question": "LangChain 是什么？"})
print(result)

from langchain_ollama.chat_models import ChatOllama
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

chat_model = ChatOllama(model="llama3.1", temperature=0.7)
prompt = ChatPromptTemplate.from_messages([
    ("system", "你是一个专业的 AI 助手，请用简洁的语言回答。"),
    ("human", "{input}")
])

chain = prompt | chat_model | StrOutputParser()

for chunk in chain.stream({"input": "解释一下 Transformer 架构"}):
    print(chunk, end="", flush=True)

from langchain.memory import ConversationBufferMemory
from langchain.chains import ConversationalRetrievalChain
from langchain_ollama.chat_models import ChatOllama

memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)
chat_model = ChatOllama(model="llama3.1")

# 注意：此处为简化示例，实际需结合 VectorStore 实现检索增强
# 仅演示对话链结构
from langchain.chains import ConversationChain
conversation = ConversationChain(llm=chat_model, memory=memory)

response = conversation.predict(input="你好")
print(response)
response = conversation.predict(input="我刚才问了什么？")
print(response)

try:
    result = chain.invoke({"question": "测试问题"})
except Exception as e:
    print(f"调用失败：{e}")

基于 LangChain 集成本地部署的 Llama3.1 大模型

基于 LangChain 集成本地部署的 Llama3.1 大模型

概述

一、环境准备

1. 系统要求

2. 安装 Python 依赖

二、部署 Ollama 与 Llama3.1

1. 安装 Ollama

2. 拉取 Llama3.1 模型

3. 本地测试模型

三、LangChain 集成方案

1. 基础文本生成

更多推荐文章

相关免费在线工具

2. 流式输出处理

3. 多轮对话记忆

四、性能优化与注意事项

1. 显存与内存管理

2. 并发控制

3. 错误处理

五、常见问题排查

六、总结

更多推荐文章

相关免费在线工具

基于 LangChain 集成本地部署的 Llama3.1 大模型

基于 LangChain 集成本地部署的 Llama3.1 大模型

概述

一、环境准备

1. 系统要求

2. 安装 Python 依赖

二、部署 Ollama 与 Llama3.1

1. 安装 Ollama

2. 拉取 Llama3.1 模型

3. 本地测试模型

三、LangChain 集成方案

1. 基础文本生成

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 流式输出处理

3. 多轮对话记忆

四、性能优化与注意事项

1. 显存与内存管理

2. 并发控制

3. 错误处理

五、常见问题排查

六、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具