Macbook Pro 本地部署 Llama3 与 LangChain 实践 | 极客日志

PythonAI算法

Macbook Pro 本地部署 Llama3 与 LangChain 实践

综述由AI生成详细记录了在 Macbook Pro M2 Max 环境下本地部署 Meta Llama 3 大语言模型及集成 LangChain 框架的全过程。内容涵盖环境搭建、Ollama 安装、基础调用测试、RAG 检索增强生成应用构建以及 70B 大模型的部署与性能对比。文章重点解决了 Conda 权限、模型版本兼容性及 FAISS 依赖等常见技术问题，并分析了 Apple Silicon 芯片在大模型推理时的内存与算力消耗情况。通过实际代码示例展示了如何利用本地模型结合外部知识库实现精准问答，为开发者提供了私有化部署 LLM 的可行方案与性能优化建议。

战神发布于 2025/2/6更新于 2026/6/428 浏览

Macbook Pro 本地部署 Llama3 与 LangChain 实践

1. 背景

随着人工智能技术的快速发展，大语言模型（LLM）的应用场景日益广泛。对于开发者而言，在本地部署大模型具有显著优势：一是数据隐私安全，私有材料无需上传至外网；二是成本可控，利用现有硬件资源即可进行实验和开发，无需额外购买云主机。

2024 年 4 月，Meta 发布了最新一代开源大模型 Llama 3，提供了 8B 和 70B 两个参数版本，性能相比前代有显著提升。本文旨在记录在 Macbook Pro（Apple Silicon 芯片）上部署 Llama 3 并结合 LangChain 框架实现简单 RAG（检索增强生成）的完整流程，供技术参考。

选择 Llama 3 的理由

时效性：采用最新模型架构，确保体验最佳效果。
生态支持：Meta 出品，社区活跃，工具链完善。

2. 环境准备

硬件配置

本次测试基于以下硬件环境，适用于大多数 M 系列芯片的 Macbook Pro 用户：

型号：Macbook Pro 14 寸
CPU：M2 MAX (12+38 核)
内存：96GB Unified Memory
硬盘：8TB SSD
操作系统：macOS 14.3.1

软件依赖

Python：3.11 及以上版本
Conda：24.3.0 或更高版本
Ollama：用于运行本地大模型服务
LangChain：用于构建 LLM 应用框架

3. 安装与运行 Ollama

Ollama 是一个轻量级的本地大模型运行工具，支持 macOS、Linux 和 Windows。它简化了模型的下载和管理过程。

3.1 安装步骤

访问 Ollama 官网下载对应系统的安装包。
解压并运行安装程序，初始化环境。
启动终端，验证安装是否成功：
```
ollama --version
```

3.2 运行 Llama 3 模型

首次运行时，Ollama 会自动从官方仓库拉取模型文件。我们首先尝试轻量级的 8B 版本：

ollama run llama3

系统会提示输入消息，此时即可开始对话。该模型对中文支持良好，响应速度在 M2 Max 上表现流畅。

4. 集成 LangChain 实现基础调用

为了将 Llama 3 集成到 Python 应用中，我们使用 LangChain 框架。LangChain 提供了丰富的组件来简化 LLM 的调用流程。

4.1 环境配置与安装

使用 Conda 创建独立环境并安装 LangChain：

conda install langchain -c conda-forge

若遇到权限错误（如 Path not writable），需修改配置文件所有者：

sudo chown -R $USER ~/.conda

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

from langchain_community.llms import Ollama

# 初始化 LLM 实例
llm = Ollama(model="llama3")
# 发送请求
response = llm.invoke("使用中文介绍一下广州")
print(response)

模型版本不匹配：若报错提示需要安装 llama2，需检查 LangChain 内部默认配置。部分旧版包可能硬编码了模型名称，需手动修改源码中的默认模型字符串为 llama3。
向量库缺失：运行 RAG 相关功能时，可能需要安装 FAISS 向量数据库：
```
pip install faiss-cpu
```

from langchain_community.llms import Ollama
from langchain_core.prompts import ChatPromptTemplate
from langchain_community.embeddings import OllamaEmbeddings
from langchain_community.document_loaders import WebBaseLoader
from langchain_community.vectorstores import FAISS
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain.chains import create_retrieval_chain

# 1. 加载文件
loader = WebBaseLoader("https://baike.baidu.com/item/广州市")
page_context = loader.load()

# 2. 分词处理
text_splitter = RecursiveCharacterTextSplitter()
split_documents = text_splitter.split_documents(page_context)

# 3. 向量化
embeddings = OllamaEmbeddings()
vector = FAISS.from_documents(split_documents, embeddings)
retriever = vector.as_retriever()

# 4. 定义提示词模板
prompt = ChatPromptTemplate.from_template("""
Answer question based on the provided context:
<context>{context}</context>
Question: {input}
""")

# 5. 加载模型并执行
llm = Ollama(model="llama3")
document_chain = create_stuff_documents_chain(llm, prompt)
retrieval_chain = create_retrieval_chain(retriever, document_chain)

response = retrieval_chain.invoke({"input": "使用中文介绍广州"})
print(response["answer"])

Answer question only based on the provided context...

ollama run llama3:70b

Macbook Pro 本地部署 Llama3 与 LangChain 实践

Macbook Pro 本地部署 Llama3 与 LangChain 实践

1. 背景

选择 Llama 3 的理由

2. 环境准备

硬件配置

软件依赖

3. 安装与运行 Ollama

3.1 安装步骤

3.2 运行 Llama 3 模型

4. 集成 LangChain 实现基础调用

4.1 环境配置与安装

更多推荐文章

相关免费在线工具

4.2 代码示例与调试

5. 构建 RAG 应用

5.1 核心流程

5.2 代码实现

5.3 提示词工程优化

6. 大参数模型测试与性能分析

6.1 70B 模型部署

6.2 资源消耗监控

6.3 效果对比

7. 总结与最佳实践

7.1 性能优化建议

7.2 扩展方向

更多推荐文章

相关免费在线工具

Macbook Pro 本地部署 Llama3 与 LangChain 实践

Macbook Pro 本地部署 Llama3 与 LangChain 实践

1. 背景

选择 Llama 3 的理由

2. 环境准备

硬件配置

软件依赖

3. 安装与运行 Ollama

3.1 安装步骤

3.2 运行 Llama 3 模型

4. 集成 LangChain 实现基础调用

4.1 环境配置与安装

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4.2 代码示例与调试

5. 构建 RAG 应用

5.1 核心流程

5.2 代码实现

5.3 提示词工程优化

6. 大参数模型测试与性能分析

6.1 70B 模型部署

6.2 资源消耗监控

6.3 效果对比

7. 总结与最佳实践

7.1 性能优化建议

7.2 扩展方向

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具