实战开发 AI Skill：网页内容抓取工具实现 | 极客日志

JavaScriptNode.jsAI

实战开发 AI Skill：网页内容抓取工具实现

综述由AI生成针对 AI 模型无法直接指定抓取范围的问题，本文介绍了基于 Skills 架构开发自定义网页内容抓取工具的方案。通过 Node.js 结合 axios 和 cheerio 库，实现了网页文本提取及多媒体资源 URL 获取功能。文章详细展示了项目结构、SKILL.md 元数据配置、核心脚本逻辑编写以及测试评估方法，帮助开发者快速掌握如何将外部工具能力集成到大模型生态中。

moshang发布于 2026/4/10更新于 2026/5/2512 浏览

实战开发 AI Skill：网页内容抓取工具实现

现在利用 AI 辅助资料搜集的场景越来越普遍，但在实际使用中，我们往往无法明确指定模型抓取内容的范围，主要依赖模型自身的检索能力。虽然可以通过优化提示词来增强控制力，或者使用 Tavily Search、SearXNG 等专用搜索智能体，但引入 Skills 或 MCP 机制能更灵活地扩展大模型的能力边界。

借此机会，我尝试开发了一个基于 Skills 架构的网页内容抓取工具，旨在深入理解其开发流程并分享实践心得。

Skills 项目结构

一个标准的 Skill 项目通常包含以下目录结构：

skill-name/
├── SKILL.md          # 唯一必需文件，定义元数据和指令
└── scripts/          # 存放可执行脚本（如 Python、Node.js）
    └── fetch-content.js
├── references/       # 文档、API 说明
├── examples/         # 示例文件
├── evals/            # 测试用例
└── assets/           # 模板、图标等资源

SKILL.md 元数据详解

SKILL.md 是技能的核心配置文件，采用 YAML 格式。以下是关键字段的说明：

字段	必填	说明
`name`	是	技能显示名称，默认使用目录名，仅支持小写字母、数字和短横线
`description`	是	技能用途及使用场景，AI 据此判断是否自动调用
`argument-hint`	否	参数补全提示，如 `[issue-number]`
`disable-model-invocation`	否	设为 `true` 禁止自动触发，仅支持手动 `/name` 调用
`user-invocable`	否	设为 `false` 可从菜单隐藏，作为后台增强能力
`allowed-tools`	否	激活时可无授权使用的工具列表
`model`	否	指定激活时使用的模型版本

核心逻辑与代码实现

本次演示选用 Node.js 环境进行实现，主要功能是获取网页文本内容，并提取可识别的媒体资源（图片、视频、音频）URL。

1. 依赖配置 ()

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Keycode 信息
查找任何按下的键的javascript键代码、代码、位置和修饰符。在线工具，Keycode 信息在线工具，online
Escape 与 Native 编解码
JavaScript 字符串转义/反转义；Java 风格 \uXXXX（Native2Ascii）编码与解码。在线工具，Escape 与 Native 编解码在线工具，online
JavaScript / HTML 格式化
使用 Prettier 在浏览器内格式化 JavaScript 或 HTML 片段。在线工具，JavaScript / HTML 格式化在线工具，online

package.json

{
  "name": "website-content-fetch",
  "version": "1.0.0",
  "main": "scripts/fetch-content.js",
  "dependencies": {
    "axios": "^1.6.2",
    "cheerio": "^1.0.0-rc.12"
  }
}

const axios = require("axios");
const cheerio = require("cheerio");
const path = require("path");
const fs = require("fs");

/**
 * 获取网页内容
 * @param {string} url - 目标 URL
 * @param {object} options - 可选参数，如 saveDir
 * @returns {Promise<object>} - 返回内容和元数据
 */
async function fetchWebsiteContent(url, options = {}) {
  try {
    const response = await axios.get(url);
    const $ = cheerio.load(response.data);

    // 1. 提取纯文本内容
    let content = $("body").text().trim();
    content = content.replace(/\s+/g, " ");

    // 2. 提取媒体资源
    const media = {
      images: [],
      videos: [],
      audios: [],
    };

    // 处理图片
    $("img").each((i, elem) => {
      const src = $(elem).attr("src");
      const alt = $(elem).attr("alt") || "";
      if (src) {
        const absoluteUrl = new URL(src, url).href;
        media.images.push({ url: absoluteUrl, alt });
      }
    });

    // 处理视频和 iframe
    $("video, iframe").each((i, elem) => {
      let src = $(elem).attr("src");
      if (!src && $(elem).attr("data-src")) {
        src = $(elem).attr("data-src");
      }
      if (src) {
        const absoluteUrl = new URL(src, url).href;
        media.videos.push({ url: absoluteUrl });
      }
    });

    // 处理音频
    $("audio").each((i, elem) => {
      const src = $(elem).attr("src");
      if (src) {
        const absoluteUrl = new URL(src, url).href;
        media.audios.push({ url: absoluteUrl });
      }
    });

    // 3. 下载并保存媒体文件（如果指定了目录）
    if (options.saveDir) {
      if (!fs.existsSync(options.saveDir)) {
        fs.mkdirSync(options.saveDir, { recursive: true });
      }

      // 保存图片
      for (let i = 0; i < media.images.length; i++) {
        const image = media.images[i];
        try {
          const imageResponse = await axios.get(image.url, {
            responseType: "stream",
          });
          const imageName = `image_${i}_${path.basename(new URL(image.url).pathname)}`;
          const imagePath = path.join(options.saveDir, imageName);
          const writer = fs.createWriteStream(imagePath);
          imageResponse.data.pipe(writer);
          await new Promise((resolve, reject) => {
            writer.on("finish", () => resolve());
            writer.on("error", reject);
          });
          image.localPath = imagePath;
        } catch (error) {
          console.error(`Error saving image ${image.url}:`, error.message);
        }
      }

      // 保存视频和音频逻辑类似，此处省略重复代码以精简展示
      // ... (实际项目中需补充 video/audio 保存逻辑)
    }

    return { content, length: content.length, url, media };
  } catch (error) {
    console.error("Error fetching website content:", error);
    throw new Error(`Failed to fetch content from ${url}: ${error.message}`);
  }
}

// 独立运行测试入口
if (require.main === module) {
  const url = process.argv[2] || "https://example.com";
  const saveDir = process.argv[3];
  const options = {};
  if (saveDir) options.saveDir = saveDir;

  fetchWebsiteContent(url, options)
    .then((result) => {
      console.log("Fetched content:");
      console.log(`URL: ${result.url}`);
      console.log(`Length: ${result.length} characters`);
      console.log("Media resources:", result.media);
    })
    .catch((error) => {
      console.error("Error:", error.message);
    });
}

module.exports = { fetchWebsiteContent };

{
  "skill_name": "website-content-fetch",
  "evals": [
    {
      "id": 1,
      "prompt": "Fetch content from https://example.com",
      "expected_output": "Should return the text content of example.com"
    },
    {
      "id": 2,
      "prompt": "Fetch content from a nonexistent domain",
      "expected_output": "Should throw an error about failed to fetch content"
    }
  ]
}

实战开发 AI Skill：网页内容抓取工具实现

实战开发 AI Skill：网页内容抓取工具实现

Skills 项目结构

SKILL.md 元数据详解

核心逻辑与代码实现

1. 依赖配置 ()

更多推荐文章

相关免费在线工具

2. 脚本实现 (`scripts/fetch-content.js`)

3. 评估测试 (`evals.json`)

集成与使用

更多推荐文章

相关免费在线工具

实战开发 AI Skill：网页内容抓取工具实现

实战开发 AI Skill：网页内容抓取工具实现

Skills 项目结构

SKILL.md 元数据详解

核心逻辑与代码实现

1. 依赖配置 ()

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 脚本实现 (scripts/fetch-content.js)

3. 评估测试 (evals.json)

集成与使用

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 脚本实现 (`scripts/fetch-content.js`)

3. 评估测试 (`evals.json`)