LLM 大模型入门项目推荐：多模态与 RAG 实战指南 | 极客日志

PythonAI算法

LLM 大模型入门项目推荐：多模态与 RAG 实战指南

综述由AI生成LLM 大模型的三个学习阶段。第一阶段通过 VisualGLM 实现多模态图文转换，涵盖依赖安装、模型加载及推理流程；第二阶段基于 RAG 架构构建金融知识库问答系统，讲解文档解析、向量化、FAISS 存储及 Prompt 工程；第三阶段推荐了多模态进阶、医疗 AI、数字人定制及 Agent 开发等综合级项目方向。文章旨在帮助初学者建立完整的技术认知，并为从业者提供系统化的实战参考。

PentesterX发布于 2025/2/6更新于 2026/6/354 浏览

前言

随着大语言模型（LLM）技术的快速发展，掌握其应用开发已成为人工智能领域的重要技能。本文基于实际项目经验，将 LLM 学习路径分为三个层级：入门级、进阶级和综合级。通过具体的代码示例和架构分析，帮助读者从零开始构建图生文、知识库问答等核心功能，并为从事相关岗位提供系统化的项目参考。

一、多模态大模型——以 VisualGLM 实现图文转换（入门级）

本章节介绍如何使用 PaddleMIX 框架加载 VisualGLM 模型，实现图像理解与文本生成。VisualGLM 是一个支持多模态输入的大模型，能够处理图像、文本等多种数据形式。

1. 安装相关依赖包

首先需要在本地环境配置好 Python 运行环境，并下载模型权重及依赖库。推荐使用 Git 克隆官方仓库，并安装必要的音频处理库。

!git clone https://github.com/PaddlePaddle/PaddleMIX.git
!pip install soundfile librosa transformers

注意：确保已安装 PyTorch 或 PaddlePaddle 深度学习框架，并根据显卡型号配置 CUDA 环境。

2. 导入依赖库、加载模型与处理器

初始化模型前，需设置环境变量以指定计算设备。从预训练权重加载模型时，建议使用本地路径以提升加载速度。

import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
os.environ["FLAGS_use_cuda_managed_memory"] = "true"

import requests
from PIL import Image
from paddlemix import VisualGLMForConditionalGeneration, VisualGLMProcessor
import warnings
warnings.filterwarnings('ignore')

# 设置模型本地路径
pretrained_name_or_path = "./visualglm-6b"
model = VisualGLMForConditionalGeneration.from_pretrained(pretrained_name_or_path)
model.eval()
processor = VisualGLMProcessor.from_pretrained(pretrained_name_or_path)

3. 图片链接与参数配置

加载待处理的图片 URL，并配置生成参数。max_length 控制输出长度，temperature 影响生成的随机性，值越小越确定。

url = 'https://example.com/sample_image.jpg'
image = Image.open(requests.get(url, stream=True).raw)

generate_kwargs = {
    "max_length": 1024,
    "min_length": 10,
    "num_beams": ,
    : ,
    : ,
    : ,
    : ,
    : ,
    : processor.tokenizer.eos_token_id,
}

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

query = "写诗描述一下这个场景"
history = []
inputs = processor(image, query)

generate_ids, _ = model.generate(**inputs, **generate_kwargs)
responses = processor.get_responses(generate_ids)
history.append([query, responses[0]])
print(responses)

query = "这部电影的导演是谁？"
inputs = processor(image, query, history=history)
generate_ids, _ = model.generate(**inputs, **generate_kwargs)
responses = processor.get_responses(generate_ids)
history.append([query, responses[0]])
print(responses)

# 下载示例文档
!wget https://example.com/carbon.pdf -O carbon.pdf
!wget https://example.com/car.pdf -O car.pdf

# 安装依赖
!pip install transformers langchain openai unstructured tiktoken faiss-cpu sentence_transformers pypdf

from langchain.document_loaders import PyPDFLoader

loaders = [
    PyPDFLoader('car.pdf'),
    PyPDFLoader('carbon.pdf')
]

docs = []
for loader in loaders:
    docs.extend(loader.load())

from langchain.text_splitter import CharacterTextSplitter

text_splitter = CharacterTextSplitter(chunk_size=300, chunk_overlap=30, separator='\n')
splits = text_splitter.split_documents(docs)
print(f"总块数：{len(splits)}")

from langchain.embeddings import HuggingFaceEmbeddings

embedding_model = 'moka-ai/m3e-base'
embeddings = HuggingFaceEmbeddings(model_name=embedding_model)

from langchain.vectorstores import FAISS

vector_store = FAISS.from_documents(splits, embeddings)

query = '政府发布了哪些双碳政策文件'
K = 5

# 修正变量名错误
results = vector_store.similarity_search_with_score(query, k=K)

for i in range(len(results)):
    doc = results[i][0]
    score = results[i][1]
    print(f'来源：{doc.metadata.get("source", "unknown")}')
    print(f'相似度：{score}')
    print(doc.page_content[:100] + '...')

context = ''
for doc in results:
    context += doc[0].page_content + '\n'

prompt = f'''你是一个学习助手，请根据下面的已知信息回答问题。
你只需要回答和已知信息相关的问题，如果问题和已知信息不相关，你可以直接回答'不知道'。
问题：{query}
已知信息:{context}'''

import requests

class BaiduErnie:
    host: str = "https://aip.baidubce.com"
    client_id: str = ""
    client_secret: str = ""
    access_token: str = ""

    def __init__(self, client_id: str, client_secret: str):
        self.client_id = client_id
        self.client_secret = client_secret
        self.get_access_token()

    def get_access_token(self) -> str:
        url = f"{self.host}/oauth/2.0/token?grant_type=client_credentials&client_id={self.client_id}&client_secret={self.client_secret}"
        response = requests.get(url)
        if response.status_code == 200:
            self.access_token = response.json()["access_token"]
            return self.access_token
        else:
            raise Exception("获取 access_token 失败")

    def chat(self, messages: list, user_id: str) -> tuple:
        if not self.access_token:
            self.get_access_token()
        url = f"{self.host}/rpc/2.0/ai_custom/v1/wenxinworkshop/chat/eb-instant?access_token={self.access_token}"
        data = {"messages": messages, "user_id": user_id}
        response = requests.post(url, json=data)
        if response.status_code == 200:
            resp = response.json()
            return resp["result"], resp
        else:
            raise Exception("请求失败")

# 初始化客户端
client_id = "YOUR_CLIENT_ID"
client_secret = "YOUR_CLIENT_SECRET"
user_id = "YOUR_USER_ID"
baidu_ernie = BaiduErnie(client_id, client_secret)

def chat(prompt):
    messages = [{"role": "user", "content": prompt}]
    result, response = baidu_ernie.chat(messages, user_id)
    return result

def predict(query):
    results = vector_store.similarity_search_with_score(query, k=K)
    context = ''
    for doc in results:
        context += doc[0].page_content + '\n'
    
    prompt = f'你是一个学习助手，请根据下面的已知信息回答问题。问题：{query} 已知信息:{context}'
    result = chat(prompt)
    print(result)

predict('政府发布了哪些双碳政策文件')

LLM 大模型入门项目推荐：多模态与 RAG 实战指南

前言

一、多模态大模型——以 VisualGLM 实现图文转换（入门级）

1. 安装相关依赖包

2. 导入依赖库、加载模型与处理器

3. 图片链接与参数配置

更多推荐文章

相关免费在线工具

4. 图生文推理

5. 图片内容深度推理

二、LLM——基于 RAG 架构的金融知识库问答（进阶级）

0. 环境配置

1. 载入本地非结构化文档

2. 文档分块（Chunking）

3. 文本 Embedding 向量化

4. 存入向量数据库

5. 查询与相似性搜索

6. Prompt 合成

7. 调用 LLM 模型生成答案

8. RAG 流程封装

三、推荐项目（综合级）

（1）多模态大模型进阶

（3）医学人工智能与大模型

（4）数字人定制

（5）Agent 智能体开发

结语

更多推荐文章

相关免费在线工具

LLM 大模型入门项目推荐：多模态与 RAG 实战指南

前言

一、多模态大模型——以 VisualGLM 实现图文转换（入门级）

1. 安装相关依赖包

2. 导入依赖库、加载模型与处理器

3. 图片链接与参数配置

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4. 图生文推理

5. 图片内容深度推理

二、LLM——基于 RAG 架构的金融知识库问答（进阶级）

0. 环境配置

1. 载入本地非结构化文档

2. 文档分块（Chunking）

3. 文本 Embedding 向量化

4. 存入向量数据库

5. 查询与相似性搜索

6. Prompt 合成

7. 调用 LLM 模型生成答案

8. RAG 流程封装

三、推荐项目（综合级）

（1）多模态大模型进阶

（3）医学人工智能与大模型

（4）数字人定制

（5）Agent 智能体开发

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具