【手把手从零实现】Qwen2.5-VL：环境配置/功能实验（图片识别理解、目标检测、文字OCR、文档解析、视频理解）/模型微调(MS-Swift 和 LLaMA-Factory)

优质文章学习记录

08 Apr 2026 — 3 min read

1. 先看结论

Qwen2.5-VL（阿里通义千问最新视觉语言家族）在 图像理解、检测框、OCR、表格解析、视频理解 等方面给出“开箱即用”的接口，3B 模型就很能打。
实测显存需求见下表。

模型	FP16 纯推理显存（之前）	INT8 权重量化后	备注
Qwen2.5‑VL‑3B	~8 GB	≈4–5 GB	再低可用 4-bit 约 2.5–3 GB
Qwen2.5‑VL‑7B	~20 GB	≈10–12 GB	KV Cache 仍是 FP16/FP32，序列越长越涨
Qwen2.5‑VL‑72B	~150 GB	≈75–90 GB（多卡/CPU Offload）	实操基本要分布式 + offload

HuggingFace transformers 正式版暂时跟不上最新接口，需要从源码装新的transformers，博主直接使用的4.51.3。也可以使用其他版本，>=4.49.0应该都能满足。
MS-Swift（ModelScope 原生工具链）与 LLaMA-Factory（社区爆款微调框架）均已支持多模态微调，可选自己熟悉的生态；本篇给出两套命令行 & 配置模板。
训练数据核心是 图像/视频路径 + Prompt/Answer 的多模态对话格式，注意对齐字段、max_pixels、抽帧策略等。
推理环节推荐自己包一层脚本，解决路径、批处理、可视化等重复工作。
建议：英文 prompt + 中文输出要求，往往效果更稳定。

2. 环境准备与安装

2.1 基础环境与依赖

建议环境（亲测稳定）：

OS：Ubuntu 20.04/22.04（Win 也能跑，但 CUDA/路径权限坑多）
Python：3.10（官方示例多数基于 3.10）
CUDA：12.4（本人使用的此版本，也可以使用11.8之类的）
PyTorch：2.6.0（和 CUDA 对应，好装好用）

# 1) 新建虚拟环境 conda create -n qwen25-vl python=3.10 -y conda activate qwen25-vl # 2) 安装 PyTorch（任选一个 CUDA 版本） # or CUDA 12.4 pip insta

AIGC 新势力：探秘海螺 AI 与蓝耘 MaaS 平台的协同创新之旅

探秘海螺AI：多模态架构下的认知智能新引擎在人工智能持续进阶的进程中，海螺AI作为一款前沿的多功能AI工具，正凭借其独特的多模态架构崭露头角。它由上海稀宇科技有限公司（MiniMax）精心打造，依托自研的万亿参数MoE大语言模型ABAB6.5以及MiniMax语音大模型，展现出非凡的技术实力与应用潜力。MiniMax的核心团队源自商汤科技等业内知名企业，在多模态大模型研发领域深耕细作，为海螺AI的诞生奠定了坚实基础。在这里插入图片描述一、核心模型架构剖析（一）基础模型：abab - 6.5 海螺AI的基础模型abab - 6.5采用了创新的混合专家系统设计，借助动态路由机制，即Sparse Gating Network，可依据输入内容智能激活8 - 12个子专家模型。这些子专家模型涵盖代码专家、多语言专家、逻辑推理专家等，各司其职，协同作业。在参数规模上，abab - 6.5总参数量高达1.2万亿，同时通过巧妙的设计，将活跃参数量控制在2000亿/query，有效平衡了模型的高容量与低推理成本。在训练优化环节，

Stable Diffusion训练神器：LoRA助手生成完美tag

Stable Diffusion训练神器：LoRA助手生成完美tag 1. 引言如果你正在尝试训练自己的Stable Diffusion模型，一定会遇到一个让人头疼的问题：怎么给训练图片打标签？手动编写英文tag不仅费时费力，还经常因为格式不规范影响训练效果。现在，有了LoRA训练助手，这一切都变得简单了。 LoRA训练助手基于强大的Qwen3-32B模型，能够智能分析图片内容，自动生成符合Stable Diffusion和FLUX模型训练规范的高质量英文标签。无论你是AI绘画爱好者还是专业模型训练师，这个工具都能让你的训练准备工作事半功倍。 2. LoRA训练助手的核心功能 2.1 智能标签生成只需用中文描述你的图片内容，LoRA训练助手就能自动生成完整的英文训练标签。比如输入"一个穿着红色连衣裙的女孩在花园里散步"，工具会输出类似"1girl, red dress, garden, walking, full body"这样规范的标签组合。 2.2 权重智能排序助手不仅生成标签，还会根据重要性自动排序。关键特征如人物主体、服装款式会放在前面，次要元素如背景

GitHub 教育认证通过后如何领取 Copilot Pro

最近我通过了 GitHub 教育认证（Student Developer Pack），但是发现并没有立刻拿到 Copilot Pro。折腾了一番之后终于搞定了，这里记录一下过程，方便后面遇到同样问题的同学。 1. 教育认证通过 ≠ 立即开通当你刚刚通过认证时，Student Pack 页面可能显示绿标，提示福利稍后开放，这时候需要等待几天到两周左右。 * 绿标：福利还在处理阶段（will be available soon）。 * 紫标：福利已经激活（benefits are now available）。所以，如果你刚过认证但没看到 Copilot Pro，不用急，先等等。 2. 手动领取 Copilot Pro 即使福利已经激活，你也需要手动去领取： 👉 访问这个链接： https://github.com/github-copilot/

用OpenClaw做qq ai办公机器人（支持群聊关键词触发+自定义域名发送任意邮件）

1.OpenClaw对接QQ（qq账号当机器人使用）在任意文件夹创建项目文件夹napcat及需要的文件夹，并创建docker-compose.yml mkdir -p napcat && cd napcat mkdir -p config .config logs docker-compose.yml内容参考 services: napcat: image: mlikiowa/napcat-docker:latest container_name: napcat restart: unless-stopped environment: - NAPCAT_UID=${NAPCAT_UID:-1000} - NAPCAT_GID=${NAPCAT_GID:-1000} - MESSAGE_POST_FORMAT=string # 网络服务（

【手把手从零实现】Qwen2.5-VL：环境配置/功能实验（图片识别理解、目标检测、文字OCR、文档解析、视频理解）/模型微调(MS-Swift 和 LLaMA-Factory)

优质文章学习记录

目录

1 先看结论

2 环境准备与安装

3 快速推理上手

4 功能实验全记录

5 批量推理脚本与常见报错定位

6 训练与微调实践

7 资源整理 & 参考命令速查

8 常见问题 FAQ