
Qwen3-VL 结合 LLaMA-Factory 实现 Grounding 任务 LoRA 微调
基于 Qwen3-VL 多模态大模型进行 Grounding 任务 LoRA 微调的完整流程。涵盖环境配置、权重下载、推理测试及数据集转换。重点讲解了如何将 YOLO 格式坐标转换为 Qwen3-VL 所需的相对坐标体系,并利用 LLaMA-Factory 可视化界面完成训练与验证。
博客作者
雾中听风
356
已发布文章
14K
博客获赞
860K
博客浏览
第 2 页

基于 Qwen3-VL 多模态大模型进行 Grounding 任务 LoRA 微调的完整流程。涵盖环境配置、权重下载、推理测试及数据集转换。重点讲解了如何将 YOLO 格式坐标转换为 Qwen3-VL 所需的相对坐标体系,并利用 LLaMA-Factory 可视化界面完成训练与验证。
Webnovel Writer 是一款基于 Claude Code 的开源长篇网文 AI 创作系统,旨在解决大模型写作中的遗忘与幻觉问题。项目采用 RAG 检索增强生成架构,结合向量检索与图关系维护,确保长周期连载的内容一致性。核心功能涵盖智能规划、章节写作、内容审查及追读力分析,支持多 Agent 协作与可视化项目管理。通过 GitHub 插件市场一键安装…
前端动画开发常涉及 GSAP、Lottie、Swiper 和 AOS 四大库。GSAP 适合复杂时间线与滚动叙事,Lottie 用于还原 AE 设计稿,Swiper 是轮播图首选,AOS 则适用于简单的滚动渐显。对比了各库的性能、体积与适用场景,提供了核心代码示例与选型决策表,帮助开发者根据项目需求选择合适方案,平衡视觉效果与性能开销。
Whisper 语音识别模型结合 GPU 加速可显著提升处理效率。文章介绍环境准备步骤,包括 NVIDIA 显卡驱动与 CUDA 工具包安装。提供基于 PyTorch 的一键安装命令及验证方法。对比 CPU 与 GPU 在不同音频时长下的处理时间,显示效率提升显著。包含常见问题解决、内存优化策略及模型大小选择建议。适用于会议记录、播客转录等场景。

Vheer 是一款提供免费 AI 绘画、视频生成及智能编辑服务的在线工具。该平台无需注册登录即可使用核心功能,无水印且生成数量无限制(高级模型除外)。支持文生图、图生图、图生视频等多种模式,内置丰富预置模板,生成速度较快。用户可选择订阅以解锁更高级模型和高速通道。

本地部署 AI 助手可解决数据隐私、网络依赖及费用问题。方案采用 Ollama 作为模型运行时,Open WebUI 提供类 ChatGPT 界面,结合 Qwen2.5 等大模型与向量知识库实现 RAG。步骤涵盖环境准备、模型拉取、容器部署、知识库构建及 Python API 调用。支持断网使用,数据不出本地,适合企业或个人私有化部署场景。
CLI-Anything 是香港大学数据科学实验室开发的开源项目,旨在通过自动化生成命令行接口(CLI),解决 AI 代理难以直接操作专业软件的痛点。该项目利用七阶段流水线将图形界面软件转化为结构化的 CLI 工具,支持 GIMP、Blender 等应用,使 AI 能精确调用后端功能。它提供交互式 REPL 和脚本化模式,确保零功能妥协。目前已在多个创意办公…
Z-Image Turbo 是一款针对低显存优化的本地 AI 绘画工具。通过底层协同优化与显存管理策略,支持 GTX 1660 Super 等旧卡在 6GB 显存下运行高清大图。实测显示其采用 bfloat16 计算与防黑图机制,显著降低 OOM 风险。安装流程简化为 Docker 一键启动,无需复杂环境配置。参数调优建议 CFG 设为 1.8,步数 8 步…
AI 工具架构升级中,Slash Command、Skill 与 Agent 是三个核心抽象。Slash Command 是封装复杂提示词的快捷键;Skill 是渐进式披露的专业知识库,解决不会做的问题;Agent 则是具备自主规划能力的完整工作角色。三者并非进化替代关系,而是分工协作体系。理解它们的区别与协同方式,有助于构建更高效的 AI 应用工作流。

基于科大讯飞星辰 RPA 和 Astron Agent 搭建小红书自动发文机器人的流程。内容涵盖服务端与客户端安装配置、Docker 环境部署、浏览器扩展授权及具体发布流程的节点编排。通过零代码拖拽操作实现跨系统数据同步与重复任务自动化,结合星火模型等智能体能力完成笔记生成与发布。

PointWorld 是斯坦福与 Nvidia 提出的大型预训练三维世界模型,旨在解决野外机器人操作问题。该模型将状态和动作统一至共享三维空间,以点流形式预测场景响应。通过构建包含约 200 万条轨迹的大规模数据集进行训练,支持单臂及双手人形机器人。模型具备实时推理能力,可集成至模型预测控制框架,仅需一张 RGB-D 图像即可执行多种操作任务,无需额外演示或…

Qclaw 是一款基于微信交互的本地 AI 智能体工具,支持 Mac 和 Windows 系统。通过扫码绑定微信即可实现文档处理、电脑操作等任务。介绍其安装流程及基础使用方法,无需复杂配置即可体验 LLM Agent 能力。底层采用嵌套 OpenClaw 架构,支持自定义大模型接入,无隐藏成本。

OpenClaw 支持将多个飞书机器人分别绑定至不同 Agent,实现多账号并行处理。配置流程涵盖 Agent 创建、飞书应用凭证获取、channels 配置文件编写、Agent 与 Channel 绑定关系建立,以及用户白名单安全设置。针对当前版本 pairing 功能限制,推荐使用 allowFrom 白名单机制替代传统配对方式。文中包含完整的 JSON…
基于 FunASR 的语音识别 WebUI 支持 Docker 本地部署,兼容 GPU 与 CPU 环境。系统提供音频上传、实时录音、自动标点及多格式导出功能,确保数据隐私安全。文档涵盖环境准备、部署步骤、界面操作及常见问题解决,适用于会议转写、字幕生成等场景。

CoPaw 是一款基于 AgentScope 生态的国产 AI 数字搭档工具。其本地与云端部署流程,涵盖 Python 环境配置、Docker 容器化安装及魔搭创空间一键启动方案。重点介绍核心配置文件 SOUL.md、AGENTS.md 和 PROFILE.md 的定制方法,实现 AI 助手性格与行为规则的个性化塑造。此外,文章包含接入飞书等协作平台的完整步…
该项目是一个支持多平台的日语小说翻译工具,涵盖网络抓取、多引擎翻译及本地文件处理。技术栈包含 Kotlin 后端、Vue3 前端及 MongoDB 存储,通过 Docker 一键部署。核心功能包括自动采集 Kakuyomu 等平台内容、切换百度或 OpenAI 翻译接口,并提供 EPUB 导出与阅读管理。适合需要无障碍阅读日语轻小说的用户进行私有化部署。

Spring AI 集成 Neo4j 向量存储方案探讨。Neo4j 作为 ACID 图数据库,利用 Lucene 引擎与 HNSW 索引实现高效向量检索。配置需确保版本 5.15+,支持 Docker 或云服务部署。梳理前置条件,为后续代码实现做准备。
现代网站普遍采用 AJAX 技术异步加载数据,传统静态爬虫失效。文章解析前端三大核心基础,深入讲解 AJAX 原理及与传统请求的区别。提供通过浏览器开发者工具检测 AJAX 和 WebSocket 的具体方法,并给出三种主流爬虫解决方案:直接调用 API(处理鉴权与加密)、模拟浏览器执行 JS(Selenium/Playwright)以及 WebSocket…

2026 年 AI 论文写作工具覆盖选题、初稿、文献处理及格式排版等全流程。主流工具包括支持中文全流程生成的 PaperRed、适配国内高校格式的毕业之家、以及针对理工科公式代码的 DeepSeek 学术版。此外还有锐智 AI、沁言学术等辅助文献综述与降重润色。实操流程建议控制在 30 分钟选题大纲、数小时生成初稿并配合专业工具进行文献引用与合规检查。核心论…

自主无人机搭建涉及硬件选型与 EGOPlanner 部署流程。本文梳理了基于 Pixhawk 6C 与 RealSense D435i 的硬件组合方案,详细记录了 ROS 环境下 Ceres、Glog 及动态重配置工具的依赖安装方法。通过 catkin_make 编译 Fast-Drone-250 项目,完成了仿真环境下的轨迹规划验证,并在树林与车库场景中进…