基于 Crawlee 构建类人行为爬虫框架实战

引言

随着大规模模型技术的兴起，检索增强生成（RAG）成为构建智能问答、内容生成等应用的关键技术。在 RAG 架构中，知识库内容的丰富程度和相关性直接决定了回答的准确性。而知识库数据的获取途径中，高效、稳定的网络爬虫是重要的组成部分。

对于前端开发者而言，面对动态加载、反爬机制复杂的现代 Web 应用，传统的静态网页爬虫往往力不从心。因此，掌握具备类人行为的爬虫框架技术，不仅是拓展技术视野的需要，也是在智能体时代保持竞争力的关键储备。

关键概念解析

在深入爬虫框架之前，理解以下核心概念至关重要：

1. JS 渲染（JavaScript Rendering）

现代网页大量使用 JavaScript 动态加载内容。传统的 HTTP 请求仅能获取初始 HTML，无法看到脚本执行后的 DOM 结构。爬虫必须具备执行 JavaScript 的能力，以完全渲染页面并提取数据。

2. 无头浏览器（Headless Browsers）

无头浏览器是在没有图形用户界面的环境中运行的浏览器实例。它们能够执行 JavaScript，模拟用户的点击、输入和滚动操作。常用的工具包括 Puppeteer 和 Playwright，它们基于 Chrome 或 Firefox 内核，提供了强大的网页自动化能力。

3. 等待元素渲染（Waiting for Elements to Render）

由于内容动态加载，爬虫必须等待特定元素出现后再进行提取。无头浏览器通常提供 waitForSelector 等方法，确保页面完全加载，避免抓取到空白或残缺的数据。

4. 代理服务器与 IP 轮换（Proxy Server & Rotation）

为了防止被目标网站封禁，爬虫通常通过代理服务器隐藏真实 IP。通过轮换多个代理 IP，可以模拟不同的访问来源，绕过地理限制并降低被封禁的风险。

Crawlee 框架介绍

Crawlee 是一个高效的网页爬虫和抓取工具，旨在帮助开发者快速构建可靠的爬虫系统。它兼具 HTTP 请求和无头浏览器的爬取能力，适用于各种动态和静态网页内容的抓取，支持 Node.js 和 Python 版本。

主要功能

HTTP 和无头浏览器爬取：统一接口处理传统 HTTP 请求和现代无头浏览器（如 Playwright 和 Puppeteer），可抓取动态生成的内容。
持久化队列：自动管理和持久化 URL 队列，支持广度优先和深度优先策略，确保高效和可靠的抓取过程。
自动扩展：支持根据需求动态调整爬取规模，提高抓取效率。
代理轮换：内置代理轮换功能，避免 IP 被封，提高爬取的稳定性。
生命周期管理：提供灵活的生命周期管理，允许自定义爬虫的各个阶段。
错误处理和重试机制：自动处理爬取过程中遇到的错误，并进行重试，确保数据完整性。

优势分析

单一接口：统一的 API 简化开发过程，减少学习成本。
JavaScript 渲染支持：通过无头浏览器渲染页面，抓取结果更完整。
丰富的配置选项：支持 HTTP/2、浏览器指纹等高级配置，适应不同需求。
TypeScript 编写：利用强类型检查提高代码质量和开发效率。
内置解析器：集成 Cheerio 和 JSDOM 等快速 HTML 解析器。
CLI 和 Docker 支持：方便集成和部署。

与其他框架对比：

Scrapy：擅长传统 HTTP 爬取，但对动态内容支持较弱。
BeautifulSoup：主要用于 HTML 解析，缺乏自动扩展和代理轮换功能。
Selenium：可抓取动态内容，但缺少持久化队列和自动扩展，性能相对较低。 Crawlee 在这些方面提供了更高效和集成的解决方案。

// routes.mjs import { createPuppeteerRouter, Dataset } from 'crawlee'; import config from './config.mjs'; export const router = createPuppeteerRouter(); config.forEach(async item => { const dataset = await Dataset.open(item.label); // 列表页处理 router.addHandler(`${item.label}`, async ({ request, page, enqueueLinks, log }) => { page.setDefaultTimeout(5000); log.debug(`Enqueueing pagination: ${request.url}`); // 模拟滚动加载 const scrollToBottom = async (page) => { let previousHeight; let newHeight; let reachedEnd = false; let count = 0; while (!reachedEnd && count < 2) { previousHeight = await page.evaluate('document.body.scrollHeight'); await page.evaluate('window.scrollBy(0, document.body.scrollHeight)'); await new Promise(resolve => setTimeout(resolve, 3000)); newHeight = await page.evaluate('document.body.scrollHeight'); if (previousHeight === newHeight) { reachedEnd = true; } count++; } }; await scrollToBottom(page); await page.waitForSelector(item.selector.detail); await enqueueLinks({ selector: item.selector.detail, label: `${item.label}-DETAIL`, }); }); // 详情页处理 router.addHandler(`${item.label}-DETAIL`, async ({ request, page, log }) => { page.setDefaultTimeout(5000); log.debug(`Extracting data: ${request.url}`); await page.waitForSelector(item.selector.content); const details = await page.evaluate((url, item) => { return { url, title: document.querySelector(item.selector.title)?.innerText || '', author: document.querySelector(item.selector.author)?.innerText || '', modifiedDate: document.querySelector(item.selector.modifiedDate)?.innerText || '', hit: document.querySelector(item.selector.hit)?.innerText || '', readTime: document.querySelector(item.selector.readTime)?.innerText || '', description: document.querySelector(item.selector.description)?.innerText || '', content: document.querySelector(item.selector.content)?.innerText || '', }; }, request.url, item); await dataset.pushData(details); }); }); router.addDefaultHandler(async ({ request, log }) => { log.warn(`Unhandled request: ${request.url}`); });

基于 Crawlee 构建类人行为爬虫框架实战

引言

关键概念解析

1. JS 渲染（JavaScript Rendering）

2. 无头浏览器（Headless Browsers）

3. 等待元素渲染（Waiting for Elements to Render）

4. 代理服务器与 IP 轮换（Proxy Server & Rotation）

Crawlee 框架介绍

主要功能

优势分析

更多推荐文章

相关免费在线工具

实战案例：掘金前端话题爬取

1. 初始化项目

2. 配置文件设计

3. 路由与处理逻辑

4. 启动与监控

进阶：代理与 Session 管理

代理配置

会话池管理

生产环境最佳实践

1. 并发控制与限速

2. 数据存储优化

3. 异常恢复机制

4. 合规性与道德规范

总结

更多推荐文章

相关免费在线工具

基于 Crawlee 构建类人行为爬虫框架实战

引言

关键概念解析

1. JS 渲染（JavaScript Rendering）

2. 无头浏览器（Headless Browsers）

3. 等待元素渲染（Waiting for Elements to Render）

4. 代理服务器与 IP 轮换（Proxy Server & Rotation）

Crawlee 框架介绍

主要功能

优势分析

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

实战案例：掘金前端话题爬取

1. 初始化项目

2. 配置文件设计

3. 路由与处理逻辑

4. 启动与监控

进阶：代理与 Session 管理

代理配置

会话池管理

生产环境最佳实践

1. 并发控制与限速

2. 数据存储优化

3. 异常恢复机制

4. 合规性与道德规范

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具