跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

文心大模型 4.5 开源实测:快速部署与多模态识别能力测评

综述由AI生成文心大模型 4.5 开源版本包含多种参数规模,支持多模态理解。基于 Ubuntu 22.04 和 Nvidia A100 环境,演示了使用 PaddlePaddle 和 FastDeploy 快速部署 ERNIE-4.5-VL-28B-A3B-Paddle 模型的过程。通过明星人物识别、验证码 OCR 测试对比通义千问,验证了其图像识别精度与响应速度。此外,结合 Gradio 构建前端交互页面,并在自媒体爆文分析、创意生成及内容创作场景中进行了应用评估,展示了其在产业级知识增强方面的实际效能。

小熊软糖发布于 2026/3/27更新于 2026/6/616 浏览
文心大模型 4.5 开源实测:快速部署与多模态识别能力测评

1. 前言

近期,百度正式开源了文心大模型 4.5 多模态大模型。文心大模型 4.5 系列开源模型包含多款参数规模不同的混合专家模型及稠密参数模型,其中部分 VL 模型支持多模态特性,可理解图片、音频、视频等非文本内容。本次开源的多个参数模型在大模型基准测试中取得了突出效果。本文将对文心大模型 4.5 系列开源模型进行测评。

[图片]

2. 测评的软硬件环境

2.1 CPU

16 核 X86 架构 Intel 处理器

2.2 内存

64G 内存

2.3 GPU

Nvidia A100 80G 显存

2.4 软件环境

操作系统使用 Ubuntu 22.04,软件环境使用 Python 3.10、PyTorch 2.7。

[图片]

2.5 模型选择

因文心大模型 4.5 的核心能力是多模态,本次测评选用的模型是 ERNIE-4.5-VL-28B-A3B-Paddle。为展示对比效果,同步测试通义千问的多模态开源大模型 Qwen2.5-VL-32B-Instruct。

3. 模型部署

得益于 AI 框架的完善,模型部署已较为便捷。百度飞桨框架支持基于 Transformer 快速部署。资源占用上,文心大模型文件约 55GB,相比千问的 68GB 略小,显存消耗略有优势。

3.1 GPU 准备

需一台 80G 显存的英伟达 A100 显卡主机,可选择主流算力租赁平台。

[图片]

依次执行以下命令,完成相关工具和模型的下载、安装和推理。

3.2 安装 GPU 版本的 PaddlePaddle

python -m pip install paddlepaddle-gpu==3.1.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/

[图片]

3.3 安装 A100 显卡专用的 FastDeploy

python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-80_90/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

[图片]

注意如果使用的是 4090 显卡,需要更换安装命令,具体参考 PaddlePaddle 帮助文档:https://paddlepaddle.github.io/FastDeploy/get_started/installation/nvidia_gpu/。

[图片]

3.4 使用 FastDeploy 一键完成模型下载和推理

python -m fastdeploy.entrypoints.openai.api_server \
  --model baidu/ERNIE-4.5-VL-28B-A3B-Paddle \
  --port 8180 \
  --metrics-port 8181 \
  --engine-worker-queue-port 8182 \
  --max-model-len 32768 \
  --enable-mm \
  --reasoning-parser ernie-45-vl \
  --max-num-seqs 32

[图片]

如下图所示,看到 8180 端口成功启动之后,表示成功的把文心大模型 4.5 28b 模型部署运行起来了。

[图片]

4. 多模态图像识别能力的测评

4.1 明星人物识别

[图片]

以奥黛丽·赫本在厨房摆弄烤箱的照片进行演示,对比文心大模型和通义千问两个多模态模型的识别结果。

4.1.1 Qwen2.5-VL-32B 的识别结果

[图片]

Qwen2.5-VL-32B 模型识别出了这是一位女性在厨房里操作烤箱,并对厨房的一些场景构造、物体摆放进行了详细的描述。

4.1.2 ERNIE-4.5-VL-28B-A3B 的识别结果

[图片]

ERNIE-4.5-VL-28B-A3B 模型识别到了图片中的人物是奥黛丽·赫本在厨房操作烤箱,同样也把厨房的场景构造和物体摆放等进行了识别和分析。

4.1.3 对比分析

通过对比可以看到,文心大模型精准地识别到了奥黛丽·赫本,并对图片中的环境和相关元素进行了描述。虽然千问大模型也很准确地识别出了照片中的各种物体和摆放造型等,但未识别出主人公奥黛丽·赫本。虽然参数量少,模型小,但是多模态的识别效果并不差,甚至更胜一筹。从运行时间来看,文心大模型返回结果的耗时也比千问更有优势。总体来看,文心在响应速度上也占据了一定优势。

4.2 基于 Gradio 库的文心大模型前端交互页面

为了方便调用 ERNIE-4.5-VL-28B-A3B 大模型,使用 Python 的 Gradio 库编写一个大模型前端交互页面,支持图片和文本的输入,源码如下:

import gradio as gr
import requests
import json
import os
from PIL import Image
import io
import time
import uuid

def process_multimodal_input(image, text_input, history):
    """处理多模态输入并调用 API"""
    if image is None and not text_input.strip():
        return history, "请上传图片或输入文本"
    # 准备 API 请求
    url = "http://127.0.0.1:8180/v1/chat/completions"
    headers = {"Content-Type": "application/json"}
    # 构建消息内容
    content = []
    # 如果有图片,添加图片内容
    if image is not None:
        # 保存上传的图片到临时文件
        temp_dir = "temp_images"
        os.makedirs(temp_dir, exist_ok=True)
        temp_path = os.path.abspath(f"{temp_dir}/temp_image_{uuid.uuid4()}.jpg")
        image.save(temp_path)
        # 使用本地文件路径
        image_url = f"file://{temp_path}"
        # 添加图片到内容
        content.append({"type": "image_url", "image_url": {"url": image_url}})
    # 添加文本到内容
    if text_input.strip():
        content.append({"type": "text", "text": text_input})
    else:
        # 如果用户没有输入文本但上传了图片,添加默认提示
        if image is not None:
            content.append({"type": "text", "text": "描述一下这张图片"})
    # 更新历史记录中的用户消息
    user_message = {"role": "user", "content": content}
    # 构建完整的请求体,包含历史消息
    messages = []
    # 添加历史消息(仅文本部分)
    for msg in history:
        if msg[0]:
            # 用户消息
            messages.append({"role": "user", "content": [{"type": "text", "text": msg[0]}]})
        if msg[1]:
            # 助手消息
            messages.append({"role": "assistant", "content": msg[1]})
    # 添加当前消息
    messages.append(user_message)
    payload = {"messages": messages}
    # 更新 UI 显示
    history.append((text_input if text_input.strip() else "图片查询", None))
    yield history, ""
    try:
        response = requests.post(url, headers=headers, data=json.dumps(payload))
        response_data = response.json()
        # 从响应中提取内容
        if "choices" in response_data and len(response_data["choices"]) > 0:
            result = response_data["choices"][0]["message"]["content"]
            # 更新历史记录中的助手回复
            history[-1] = (history[-1][0], result)
            yield history, ""
        else:
            error_msg = "无法获取响应,API 返回格式异常。"
            history[-1] = (history[-1][0], error_msg)
            yield history, ""
    except Exception as e:
        error_msg = f"发生错误:{str(e)}"
        history[-1] = (history[-1][0], error_msg)
        yield history, ""

def clear_chat():
    """清除聊天历史"""
    return [], ""

# 创建 Gradio 界面
with gr.Blocks(title="文心大模型 4.5") as demo:
    with gr.Column():
        with gr.Row():
            gr.Markdown("# 文心大模型 4.5 - 多模态大模型智能助手,支持文本交互和图像识别")
        # 聊天消息区域
        chatbot = gr.Chatbot(height=500)
        # 图片上传(隐藏)
        image_input = gr.Image(type="pil", label="", visible=False)
        # 文本输入区域独占一行
        text_input = gr.Textbox(
            placeholder="输入消息或上传图片...",
            label="",
            lines=4,
            max_lines=10
        )
        # 按钮组 - 独立成行
        with gr.Row():
            # 添加 scale 参数确保按钮不被拉伸
            # 上传图片按钮
            upload_btn = gr.UploadButton("🖼️", file_types=["image"])
            # 发送按钮
            send_btn = gr.Button("发送")
        with gr.Row():
            gr.Markdown("© 2025 文心大模型 4.5 | 基于 Gradio 构建的现代大模型交互界面")
        # 处理图片上传
        def handle_image_upload(image):
            return image
        upload_btn.upload(
            fn=handle_image_upload,
            inputs=[upload_btn],
            outputs=[image_input]
        )
        # 设置发送按钮事件
        send_btn.click(
            fn=process_multimodal_input,
            inputs=[image_input, text_input, chatbot],
            outputs=[chatbot, text_input]
        ).then(
            fn=lambda: None,
            inputs=[],
            outputs=[image_input]
        )
        # 设置文本框回车发送
        text_input.submit(
            fn=process_multimodal_input,
            inputs=[image_input, text_input, chatbot],
            outputs=[chatbot, text_input]
        ).then(
            fn=lambda: None,
            inputs=[],
            outputs=[image_input]
        )
        # 启动应用
if __name__ == "__main__":
    demo.queue()
    demo.launch(server_name="0.0.0.0")

4.3 图片验证码识别

接下来,我们再做一个实验,以下面这张验证码图片为例,继续验证文心大模型的图像识别理解能力。

[图片]

接下来,我们通过该页面上传图片,让 ERNIE-4.5-VL-28B-A3B 模型进行识别。

[图片]

如上图所示,通过识别结果,我们可以看到,文心大模型顺利地把验证码识别了出来,甚至连大小写都精准的做了区分。这个效果显著,优于市面上一众 OCR 模型。

5. 自媒体创作场景测评

通过上面 2 个多模态例子,可以看到,文心大模型 4.5 的多模态图像识别理解能力非常强大。作为产业级知识增强大模型,它的场景化能力表现如何呢?做过自媒体的同学都知道,内容创作有 3 大难,分别是起号难、创意难、写作难。既然文心大模型 4.5 的视觉识别能力这么强,那接下来,我们就以自媒体创作这个典型场景对它进行深挖拷打,看看它能不能给我们的自媒体创作也带来新的超预期惊喜。

5.1 爆文分析

[图片]

这是一篇阅读量十万 W+ 甚至百万 + 的一篇微信公众号文章,可谓是超级爆文,我们复制文章内容,让文心大模型分析一下这篇文章的爆点在哪里。

[图片]

从结果可以看到,文心大模型给出了很有含金量的分析结果,包括选题、内容、观点、语言表达等多方面,分析结论非常清晰明确。有了文心大模型的爆文分析帮助,可以帮助我们快速获悉爆文账号的特点和文章写作手法,让我们也有了冲的机会,这就为我们解决了第一个起号难的问题。

5.2 创意生成

接下来,我们以职场自媒体为切入点,让文心大模型给我们梳理几个职场自媒体的灵感话题,用于扩充我们的自媒体创作素材库。

prompt:我是一个职场自媒体创作者,最近比较缺乏灵感,可以给我整理几个更容易成为爆文的话题吗?

[图片]

如上图所示,文心大模型化身为一位资深的职场自媒体创作者,精准捕捉到了职场人的真实痛点,然后结合了当前职场趋势和读者需求,精心整理的几个更容易成为爆文的话题方向。这就为我们解决了第二个创意难的问题。

5.3 内容创作

好,素材和灵感都有了,我们继续让文心大模型完成初稿的编写,看看他的写作水平如何。

prompt:作为一个职场自媒体博主,请以《30 岁转行避坑指南:5 个血泪教训,现在知道还不晚》作为文章标题,写一篇 1100 字的微信公众号文章。要求选题贴近大众,引发共鸣,争取成为爆款。

如上图所示,文心大模型根据我们的要求,为我们创作了一篇优秀并富有吸引力的微信公众号文章初稿,我们只需要对其进行稍加润色,就是一篇有超高几率成为爆文的文章了。到这里,文心大模型就帮我们解决了第三个创作难的问题。顺利为我们的自媒体创作进行了闭环。

6. 总结

通过对文心大模型 4.5 开源模型的深度测评,我们可以很清晰的感知到,百度这次开源的模型还是非常有水平的。主要有下面几个点:

  1. 模型参数从 0.3B 到 474B(参数丰富,可选择多),跨度大,可以根据自己的需求选择使用不同参数规模的模型,兼顾性能和效率。
  2. 基于 GitCode 托管的模型,我们可以实现模型的高速下载,基于百度自研的飞桨框架,我们可以实现一条命令快速部署。
  3. 文心大模型多模态理解识别能力强,可以非常准确的识别人物和验证码图片,未来我们甚至可以直接使用文心大模型 4.5 替代复杂的视觉类识别算法。
  4. 作为产业级知识增强大模型,文心大模型的场景化能力还是非常强的,可以帮助我们高效的完成自媒体创作领域的辅助工作,让我们的创作效率直线提升。

目录

  1. 1. 前言
  2. 2. 测评的软硬件环境
  3. 2.1 CPU
  4. 2.2 内存
  5. 2.3 GPU
  6. 2.4 软件环境
  7. 2.5 模型选择
  8. 3. 模型部署
  9. 3.1 GPU 准备
  10. 3.2 安装 GPU 版本的 PaddlePaddle
  11. 3.3 安装 A100 显卡专用的 FastDeploy
  12. 3.4 使用 FastDeploy 一键完成模型下载和推理
  13. 4. 多模态图像识别能力的测评
  14. 4.1 明星人物识别
  15. 4.1.1 Qwen2.5-VL-32B 的识别结果
  16. 4.1.2 ERNIE-4.5-VL-28B-A3B 的识别结果
  17. 4.1.3 对比分析
  18. 4.2 基于 Gradio 库的文心大模型前端交互页面
  19. 创建 Gradio 界面
  20. 4.3 图片验证码识别
  21. 5. 自媒体创作场景测评
  22. 5.1 爆文分析
  23. 5.2 创意生成
  24. 5.3 内容创作
  25. 6. 总结
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 开源日语轻小说自动翻译工具架构与部署实践
  • Java 代码块详解:控制流、方法、实例、静态及同步代码块
  • 面试高频缓存算法:LRU 与 LFU 原理及实现
  • 昇腾 NPU 部署 Llama 2 模型:性能测试与实战优化
  • AI 与数据驱动下的组织进化:未来三年技术与人才趋势
  • 数电设计步骤与 FPGA 实现的本质区别
  • 【选型】地瓜机器人RDK系列选型指南:X3 vs X5 vs S100 vs S100P(含资源对比图)
  • 马年新春 Python+Stable Diffusion 生成企业营销素材
  • Flowise 结合 Web Scraping 的数据采集流程
  • Python 工程师必学工具:Jupyter Notebook 简介与核心优势
  • Python JSON Logger 完整指南:如何实现结构化日志记录
  • Java 实现的网格疫情扩散模拟算法
  • 文心一言 4.5 评测与本地部署指南:开源大模型的中文能力实测
  • LLaMA-Factory 数据集制作与 Qwen3 模型微调评估
  • P1203 [IOI 1993 / USACO1.1] 坏掉的项链 Broken Necklace Python 题解
  • 如何在 Windows 本地部署开源大语言模型:基于 Ollama 与 Open WebUI
  • C++与Rust数据交互与内存安全传递技术
  • 高版本 Python pyc 文件反编译失败与残缺问题的 AI 辅助解决方案
  • 零基础转行 Python 工程师:我的学习路径与实战经验总结
  • Java 核心语法与并发编程实战示例

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online