
无人机树木计数目标检测数据集及 YOLO 训练实战
无人机树木计数目标检测数据集及 YOLO 训练实战指南。提供开源数据资源、目录结构说明及 Ultralytics 框架下的训练推理代码。适用于林业普查、生态监测场景,解决复杂地形植被识别问题。整合数据与模型配置,辅助开发者快速构建检测 Pipeline。
博客作者
数据科学家
356
已发布文章
11K
博客获赞
720K
博客浏览
第 2 页

无人机树木计数目标检测数据集及 YOLO 训练实战指南。提供开源数据资源、目录结构说明及 Ultralytics 框架下的训练推理代码。适用于林业普查、生态监测场景,解决复杂地形植被识别问题。整合数据与模型配置,辅助开发者快速构建检测 Pipeline。
Z-Image-Turbo 是一款专注于降低 AI 绘画门槛的云端工具,通过简化参数配置实现快速生成。介绍其核心优势如 BFloat16 精度优化与 4 步推理加速,提供从基础操作到高级提示词编写的完整流程。涵盖场景设计、壁纸生成及艺术创作模板,并针对模糊结构、色彩异常等常见问题给出解决方案。无需本地部署,适合希望快速产出高质量图像的用户。
行星减速器是精密传动系统核心部件,结构包含太阳轮、行星轮、内齿圈及行星架。其减速比计算公式为 i = 1 + (Zr/Zs),多级减速比为各级乘积。文章提供了基于 C++ 的减速比计算代码示例,涵盖单级与多级计算、输入验证及扭矩功率法扩展。应用场景覆盖工业机器人、风电、自动化设备、工程机械等领域,需关注输入转速、工作温度、扭矩容量及润滑维护等使用条件限制。

Diffusion Transformer (DiT) 将扩散模型中的 U-Net 替换为 Vision Transformer (ViT),显著提升了可扩展性。文章详细解析了 DiT 的三种条件策略,并探讨了其在视频生成领域的改造方案,如引入时间注意力机制。此外,重点介绍了 DiT 在机器人动作预测中的应用,特别是清华大学提出的 PAD 框架,该框架通过联…

OpenClaw 对接飞书机器人时出现消息无响应和 Gateway 断开问题。原因包括飞书应用类型不支持 WebSocket 长连接、多账号配置字段错误以及 Gateway 前台运行导致无法被 LaunchAgent 自动重启。解决方案是更换正确的自建应用 ID,在配置文件中通过 accounts 字段配置多账号,并使用 openclaw gateway s…

思维链(Chain-of-Thought)通过引导大语言模型分步展示推理过程,解决复杂任务直接输出答案易出错的问题。核心机制是激活模型隐含推理能力并构建推理脚手架。分为零样本(Zero-Shot)和少样本(Few-Shot)两种模式,分别适用于简单推理和复杂任务场景。设计时需遵循步骤颗粒度适中、指令明确、示例匹配等原则,避免逻辑错误与格式混乱。结合人设设定与…
YOLOFuse 结合红外与可见光图像进行目标检测,Whisper 负责本地语音识别。两者协同构建边缘智能终端,实现视听多模态感知。系统通过中期融合策略提升检测精度,利用 Whisper 本地部署保障隐私与低延迟。整合后支持语音触发检测、目标驱动反馈及多模态交叉验证,适用于夜间救援、巡检等复杂场景,推动边缘智能从自动化向认知化演进。

AI 绘画技术应用于电商产品图生成时,提示词的精准度直接决定画面质量。核心方法包括分层描述产品属性、场景与风格,调整光影色彩,补充细节限定词,并规避模糊指令与冲突要求。文中提供服饰与数码类具体案例,展示如何组合关键词以获取符合商业需求的写实或风格化图像,帮助运营人员提升视觉素材产出效率。

针对机器人射击墙壁问题,核心在于处理子弹被其他机器人阻挡的情况。通过排序机器人位置,利用动态规划结合离散化技术优化状态转移。由于坐标范围过大,需引入离散化处理以节省空间。最终方案将时间复杂度优化至 O(n log n),有效解决内存超限问题,确保算法在实际数据规模下高效运行。
OpenClaw 是一款能直接操控 Windows/Linux 电脑的 AI 助手,支持自然语言指令执行代码编写、文件管理、环境部署及鼠标键盘模拟。介绍其核心功能、基于 Node.js 的本地部署方法(含 PowerShell 与 WSL2 两种方式)、配置步骤及常见问题排查,并列举了部分开源替代方案供参考。

AIGC 发展面临算力瓶颈,探讨高性能云算力平台与通义万相 2.1 的集成方案。涵盖平台资源管理、AI 特化能力及多模态生成特性,提供从注册部署到 Python SDK 调用的完整实战流程。包含性能对比数据、能耗优化分析及新闻、营销等应用场景,旨在帮助开发者利用云资源加速 AIGC 内容创作,提升生成效率与质量。

在国产化鲲鹏 ARM64 架构的麒麟 V10 系统上部署 WebLogic 12c。首先配置 Oracle JDK 8 环境变量,替换默认 OpenJDK。接着安装 libXext 等依赖包并调整内核参数。通过下载 ARM64 版本的 WebLogic 安装包执行静默安装,需创建响应文件及 inventory 配置文件。随后使用 WLST Python 脚本…

AIGC 技术在元宇宙虚拟身份构建中扮演核心角色,涵盖外观生成、行为模拟及自然语言交互。通过生成对抗网络(GAN)实现个性化形象设计,利用强化学习训练角色行为策略,结合大语言模型(LLM)提升对话沉浸感。本文解析相关技术架构与代码实现路径,探讨未来虚拟角色的社会化应用趋势。

Unix AI 推出第三代 Panther 机器人,针对具身智能从 Demo 向交付转型的行业痛点。通过全向底盘、8 自由度机械臂及 48V 供电平台实现硬件升级,配合 UniFlex、UniTouch、UniCortex 三位一体智能架构,在烹饪、倒酒、刺绣等复杂场景中展现稳定任务执行能力,标志着人形机器人向真实场景落地的关键一步。

LLaMA-Factory 提供统一的大语言模型训练与微调平台,支持多种模型架构及训练算法。涵盖环境部署、数据集构建、SFT 训练、LoRA 合并量化及推理评估等核心环节。通过命令行或 WebUI 操作,可实现从零开始的高效模型定制,适用于全参数微调、QLoRA 及多模态任务,帮助开发者快速落地私有化模型应用。
Telegram 搜索机器人通过接收用户输入的关键字,利用 Python 结合 Telethon 库连接 Telegram API,并在本地 SQLite 数据库中检索匹配项后返回结果。该方案展示了构建基础自动化查询工具的技术流程,涉及消息监听、数据库查询及响应发送等核心步骤。

Agent Skills 是将重复性工作流程封装为可复用指令的机制,通过标准化任务名称、描述和执行步骤,让 AI Agent 能像调用工具一样精确执行。核心在于模块化设计和渐进式披露策略,仅加载元数据、触发时加载指令、按需加载资源,大幅节省 Token 消耗。创建过程包括定义目录结构、编写 SKILL.md 文件及配置脚本资源,遵循简洁性与自由度平衡原则。了…
第一章:VSCode Copilot登录失败的典型表现 当使用 VSCode 中的 GitHub Copilot 插件时,用户在尝试登录过程中可能会遇到多种异常现象。这些表现不仅影响代码补全功能的正常使用,还可能干扰开发流程。以下是常见的登录失败典型表现。 认证窗口无法加载 部分用户在点击'Sign in to GitHub'后,浏览器或内置认证弹窗长时间停…

摘要 专为OpenClaw小白打造,全面拆解这款开源AI智能体框架的核心内容,帮你快速理清OpenClaw的定位、核心特点与使用价值——它并非传统聊天机器人,而是能直接操控电脑/服务器、自动完成办公自动化、文件处理、代码开发等真实任务的'数字员工'。文中涵盖小白必知的核心能力、适用场景、极简部署步骤、安全注意事项,以及与传统AI工具的关键区别,同时附上生态社…
15\. Web可访问性最佳实践:让每个用户都能平等访问 引言 Web 可访问性是前端开发的重要组成部分,它确保所有用户,包括残障人士,都能平等地访问和使用网站。作为一名把代码当散文写的 UI 匠人,我始终认为:好的设计不仅要美观,更要包容。就像一首好的音乐,不仅要动听,更要让所有人都能欣赏。Web 可访问性,就是为了让这种包容成为现实。 什么是 Web 可…