Macbook Pro 本地部署 Llama3 与 LangChain 实践
1. 背景
随着人工智能技术的快速发展,大语言模型(LLM)的应用场景日益广泛。对于开发者而言,在本地部署大模型具有显著优势:一是数据隐私安全,私有材料无需上传至外网;二是成本可控,利用现有硬件资源即可进行实验和开发,无需额外购买云主机。
2024 年 4 月,Meta 发布了最新一代开源大模型 Llama 3,提供了 8B 和 70B 两个参数版本,性能相比前代有显著提升。本文旨在记录在 Macbook Pro(Apple Silicon 芯片)上部署 Llama 3 并结合 LangChain 框架实现简单 RAG(检索增强生成)的完整流程,供技术参考。
选择 Llama 3 的理由
- 时效性:采用最新模型架构,确保体验最佳效果。
- 生态支持:Meta 出品,社区活跃,工具链完善。
2. 环境准备
硬件配置
本次测试基于以下硬件环境,适用于大多数 M 系列芯片的 Macbook Pro 用户:
- 型号:Macbook Pro 14 寸
- CPU:M2 MAX (12+38 核)
- 内存:96GB Unified Memory
- 硬盘:8TB SSD
- 操作系统:macOS 14.3.1
软件依赖
- Python:3.11 及以上版本
- Conda:24.3.0 或更高版本
- Ollama:用于运行本地大模型服务
- LangChain:用于构建 LLM 应用框架
3. 安装与运行 Ollama
Ollama 是一个轻量级的本地大模型运行工具,支持 macOS、Linux 和 Windows。它简化了模型的下载和管理过程。
3.1 安装步骤
- 访问 Ollama 官网下载对应系统的安装包。
- 解压并运行安装程序,初始化环境。
- 启动终端,验证安装是否成功:
ollama --version
3.2 运行 Llama 3 模型
首次运行时,Ollama 会自动从官方仓库拉取模型文件。我们首先尝试轻量级的 8B 版本:
ollama run llama3
系统会提示输入消息,此时即可开始对话。该模型对中文支持良好,响应速度在 M2 Max 上表现流畅。
4. 集成 LangChain 实现基础调用
为了将 Llama 3 集成到 Python 应用中,我们使用 LangChain 框架。LangChain 提供了丰富的组件来简化 LLM 的调用流程。
4.1 环境配置与安装
使用 Conda 创建独立环境并安装 LangChain:
conda install langchain -c conda-forge
若遇到权限错误(如 Path not writable),需修改配置文件所有者:
sudo chown -R $USER ~/.conda


