大模型学习路线之入门项目推荐
前言
本文依托主流 AI 开发平台内容,整理了一套从入门到进阶的大模型实践方案。章节一呈现了一个入门级 Demo(小白友好),以 VisualGLM(多模态大模型)为例实现图生文;章节二呈现了一个进阶版 Demo(适合有一定 LLM 基础的人群),以文心大模型(LLM+RAG)为例实现金融问答;章节三推荐了数个综合级、系统化的项目(适合从事或预从事 LLM/AIGC 岗位的人群),把每个项目深挖吃透后,基本可以胜任相关岗位。
一、大模型——以 VisualGLM 实现图文转换(入门级)
1. 安装相关依赖包
使用 git 命令从 GitHub 下载 visualglm-6b 模型到本地,安装 PaddleMIX 及 pip 其他相关依赖包。
!git clone https://github.com/PaddlePaddle/PaddleMIX.git
!pip install soundfile librosa paddlepaddle-gpu
注意:请确保已安装 CUDA 环境并配置好 GPU 驱动。
2. 导入 Model & Processor
加载预训练模型和处理器,设置环境变量以优化显存管理。
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
os.environ["FLAGS_use_cuda_managed_memory"] = "true"
import requests
from PIL import Image
from PaddleMIX.paddlemix import VisualGLMForConditionalGeneration, VisualGLMProcessor
import warnings
warnings.filterwarnings('ignore')
# 设置 visualglm-6b 预训练模型的本地路径
pretrained_name_or_path = "./visualglm-6b"
model = VisualGLMForConditionalGeneration.from_pretrained(pretrained_name_or_path, dtype="float32")
model.eval()
processor = VisualGLMProcessor.from_pretrained(pretrained_name_or_path)
3. 导入图片链接
通过 URL 获取图片并进行预处理。
url = 'https://i02piccdn.sogoucdn.com/5dd40dedd7107cc5'
image = Image.open(requests.get(url, stream=True).raw)
# 配置模型参数
generate_kwargs = {
"max_length": 1024,
"min_length": 10,
: ,
: ,
: ,
: ,
: ,
: ,
: processor.tokenizer.eos_token_id,
}


