雾岛听风的博客文章

PythonAI算法

Diffusion Transformer (DiT)：U-Net 换 ViT，应用于视频生成与机器人动作预测

Diffusion Transformer (DiT) 通过将扩散模型中的 U-Net 骨干替换为 Vision Transformer (ViT)，显著提升了生成模型的扩展性与性能。文章深入解析了 DiT 的核心架构、三种条件策略及在视频生成领域的改造方案，包括时间注意力机制与分辨率适配。重点探讨了清华大学提出的 PAD（Prediction with A…

发布于 2026/4/948 浏览0 点赞

JavaScript大前端

前端代码可读性优化：让代码更易维护与协作

前端代码可读性直接决定项目的可维护性与团队协作效率。通过规范命名、控制函数长度、合理使用注释及利用现代语法特性，可以显著提升代码质量。需警惕过度设计，在保证清晰的同时兼顾简洁，根据项目规模灵活调整标准，避免为了可读性而牺牲开发效率。

发布于 2026/4/939 浏览0 点赞

JavaScriptNode.jsAI

OpenClaw：本地 AI 电脑自动化操作工具实战

OpenClaw 是一款支持本地部署的 AI 电脑自动化工具，能够直接执行文件操作、代码编写及系统设置等任务。文章详细介绍了基于 Node.js 22+ 环境的原生 PowerShell 与 WSL2 两种部署流程，涵盖 API Key 配置、服务启停及端口冲突处理。此外还列举了 NanoBot、ZeroClaw 等开源替代方案，供不同场景下的开发者参考选择…

发布于 2026/4/935 浏览0 点赞

PythonAI算法

Qwen3-VL 结合 LLaMA-Factory 实现 Grounding 任务 LoRA 微调

基于 Qwen3-VL 多模态大模型进行 Grounding 任务 LoRA 微调的完整流程。涵盖环境配置、权重下载、推理测试及数据集转换。重点讲解了如何将 YOLO 格式坐标转换为 Qwen3-VL 所需的相对坐标体系，并利用 LLaMA-Factory 可视化界面完成训练与验证。

发布于 2026/4/951 浏览0 点赞

PythonAI算法

Webnovel Writer：基于 Claude Code 的长篇网文 AI 创作系统

Webnovel Writer 是一款基于 Claude Code 的开源长篇网文 AI 创作系统，旨在解决大模型写作中的遗忘与幻觉问题。项目采用 RAG 检索增强生成架构，结合向量检索与图关系维护，确保长周期连载的内容一致性。核心功能涵盖智能规划、章节写作、内容审查及追读力分析，支持多 Agent 协作与可视化项目管理。通过 GitHub 插件市场一键安装…

发布于 2026/4/937 浏览0 点赞

JavaScript大前端

前端常用动画库实战指南：GSAP、Lottie、Swiper 与 AOS

前端动画开发常涉及 GSAP、Lottie、Swiper 和 AOS 四大库。GSAP 适合复杂时间线与滚动叙事，Lottie 用于还原 AE 设计稿，Swiper 是轮播图首选，AOS 则适用于简单的滚动渐显。对比了各库的性能、体积与适用场景，提供了核心代码示例与选型决策表，帮助开发者根据项目需求选择合适方案，平衡视觉效果与性能开销。

发布于 2026/4/954 浏览0 点赞

PythonAI算法

Whisper 语音识别 GPU 加速实战指南

Whisper 语音识别模型结合 GPU 加速可显著提升处理效率。文章介绍环境准备步骤，包括 NVIDIA 显卡驱动与 CUDA 工具包安装。提供基于 PyTorch 的一键安装命令及验证方法。对比 CPU 与 GPU 在不同音频时长下的处理时间，显示效率提升显著。包含常见问题解决、内存优化策略及模型大小选择建议。适用于会议记录、播客转录等场景。

发布于 2026/4/944 浏览0 点赞

编程语言SaaSAI

Vheer：免费免登录 AI 绘画视频生成与智能编辑工具

Vheer 是一款提供免费 AI 绘画、视频生成及智能编辑服务的在线工具。该平台无需注册登录即可使用核心功能，无水印且生成数量无限制（高级模型除外）。支持文生图、图生图、图生视频等多种模式，内置丰富预置模板，生成速度较快。用户可选择订阅以解锁更高级模型和高速通道。

发布于 2026/4/939 浏览0 点赞

PythonAI算法

本地搭建带知识库的 AI 助手（Ollama + Open WebUI）

本地部署 AI 助手可解决数据隐私、网络依赖及费用问题。方案采用 Ollama 作为模型运行时，Open WebUI 提供类 ChatGPT 界面，结合 Qwen2.5 等大模型与向量知识库实现 RAG。步骤涵盖环境准备、模型拉取、容器部署、知识库构建及 Python API 调用。支持断网使用，数据不出本地，适合企业或个人私有化部署场景。

发布于 2026/4/843 浏览0 点赞

PythonAI

CLI-Anything：自动化生成 CLI 接口，让 AI 代理控制任意软件

CLI-Anything 是香港大学数据科学实验室开发的开源项目，旨在通过自动化生成命令行接口（CLI），解决 AI 代理难以直接操作专业软件的痛点。该项目利用七阶段流水线将图形界面软件转化为结构化的 CLI 工具，支持 GIMP、Blender 等应用，使 AI 能精确调用后端功能。它提供交互式 REPL 和脚本化模式，确保零功能妥协。目前已在多个创意办公…

发布于 2026/4/839 浏览0 点赞

PythonAI算法

Z-Image Turbo 画板：低显存 AI 绘画稳定生成指南

Z-Image Turbo 是一款针对低显存优化的本地 AI 绘画工具。通过底层协同优化与显存管理策略，支持 GTX 1660 Super 等旧卡在 6GB 显存下运行高清大图。实测显示其采用 bfloat16 计算与防黑图机制，显著降低 OOM 风险。安装流程简化为 Docker 一键启动，无需复杂环境配置。参数调优建议 CFG 设为 1.8，步数 8 步…

发布于 2026/4/834 浏览0 点赞

编程语言AI算法

AI 工具核心概念解析：Slash Command、Skill 与 Agent 的关系

AI 工具架构升级中，Slash Command、Skill 与 Agent 是三个核心抽象。Slash Command 是封装复杂提示词的快捷键；Skill 是渐进式披露的专业知识库，解决不会做的问题；Agent 则是具备自主规划能力的完整工作角色。三者并非进化替代关系，而是分工协作体系。理解它们的区别与协同方式，有助于构建更高效的 AI 应用工作流。

发布于 2026/4/843 浏览0 点赞

编程语言AI

星辰 RPA 搭建小红书自动发文机器人

基于科大讯飞星辰 RPA 和 Astron Agent 搭建小红书自动发文机器人的流程。内容涵盖服务端与客户端安装配置、Docker 环境部署、浏览器扩展授权及具体发布流程的节点编排。通过零代码拖拽操作实现跨系统数据同步与重复任务自动化，结合星火模型等智能体能力完成笔记生成与发布。

发布于 2026/4/834 浏览0 点赞

编程语言AI算法

PointWorld：面向野外机器人操作的 3D 世界模型规模化

PointWorld 是斯坦福与 Nvidia 提出的大型预训练三维世界模型，旨在解决野外机器人操作问题。该模型将状态和动作统一至共享三维空间，以点流形式预测场景响应。通过构建包含约 200 万条轨迹的大规模数据集进行训练，支持单臂及双手人形机器人。模型具备实时推理能力，可集成至模型预测控制框架，仅需一张 RGB-D 图像即可执行多种操作任务，无需额外演示或…

发布于 2026/4/839 浏览0 点赞

编程语言WeChatAI

Qclaw 使用指南：基于微信的本地 AI 智能体工具入门

Qclaw 是一款基于微信交互的本地 AI 智能体工具，支持 Mac 和 Windows 系统。通过扫码绑定微信即可实现文档处理、电脑操作等任务。介绍其安装流程及基础使用方法，无需复杂配置即可体验 LLM Agent 能力。底层采用嵌套 OpenClaw 架构，支持自定义大模型接入，无隐藏成本。

发布于 2026/4/738 浏览0 点赞

Shell / BashAI

OpenClaw 多飞书机器人配置与绑定指南

OpenClaw 支持将多个飞书机器人分别绑定至不同 Agent，实现多账号并行处理。配置流程涵盖 Agent 创建、飞书应用凭证获取、channels 配置文件编写、Agent 与 Channel 绑定关系建立，以及用户白名单安全设置。针对当前版本 pairing 功能限制，推荐使用 allowFrom 白名单机制替代传统配对方式。文中包含完整的 JSON…

发布于 2026/4/746 浏览0 点赞

PythonAI算法

FunASR 语音识别 WebUI 本地部署与使用详解

基于 FunASR 的语音识别 WebUI 支持 Docker 本地部署，兼容 GPU 与 CPU 环境。系统提供音频上传、实时录音、自动标点及多格式导出功能，确保数据隐私安全。文档涵盖环境准备、部署步骤、界面操作及常见问题解决，适用于会议转写、字幕生成等场景。

发布于 2026/4/743 浏览0 点赞

PythonAI算法

CoPaw 个人助理部署与个性化配置实战指南

CoPaw 是一款基于 AgentScope 生态的国产 AI 数字搭档工具。其本地与云端部署流程，涵盖 Python 环境配置、Docker 容器化安装及魔搭创空间一键启动方案。重点介绍核心配置文件 SOUL.md、AGENTS.md 和 PROFILE.md 的定制方法，实现 AI 助手性格与行为规则的个性化塑造。此外，文章包含接入飞书等协作平台的完整步…

发布于 2026/4/741 浏览0 点赞

KotlinAI大前端java

开源轻小说机翻机器人部署与架构解析

该项目是一个支持多平台的日语小说翻译工具，涵盖网络抓取、多引擎翻译及本地文件处理。技术栈包含 Kotlin 后端、Vue3 前端及 MongoDB 存储，通过 Docker 一键部署。核心功能包括自动采集 Kakuyomu 等平台内容、切换百度或 OpenAI 翻译接口，并提供 EPUB 导出与阅读管理。适合需要无障碍阅读日语轻小说的用户进行私有化部署。

发布于 2026/4/743 浏览0 点赞

雾岛听风

发布的文章

Diffusion Transformer (DiT)：U-Net 换 ViT，应用于视频生成与机器人动作预测

企业级 Web 农产品直卖平台管理系统：SpringBoot+Vue+MyBatis 架构

前端代码可读性优化：让代码更易维护与协作

OpenClaw：本地 AI 电脑自动化操作工具实战

Qwen3-VL 结合 LLaMA-Factory 实现 Grounding 任务 LoRA 微调

Webnovel Writer：基于 Claude Code 的长篇网文 AI 创作系统

前端常用动画库实战指南：GSAP、Lottie、Swiper 与 AOS

Whisper 语音识别 GPU 加速实战指南

Vheer：免费免登录 AI 绘画视频生成与智能编辑工具

本地搭建带知识库的 AI 助手（Ollama + Open WebUI）

CLI-Anything：自动化生成 CLI 接口，让 AI 代理控制任意软件

Z-Image Turbo 画板：低显存 AI 绘画稳定生成指南

AI 工具核心概念解析：Slash Command、Skill 与 Agent 的关系

星辰 RPA 搭建小红书自动发文机器人

PointWorld：面向野外机器人操作的 3D 世界模型规模化

Qclaw 使用指南：基于微信的本地 AI 智能体工具入门

OpenClaw 多飞书机器人配置与绑定指南

FunASR 语音识别 WebUI 本地部署与使用详解

CoPaw 个人助理部署与个性化配置实战指南

开源轻小说机翻机器人部署与架构解析