基于大语言模型的智能爬虫 Crawlab AI 实践

基于大语言模型（LLM）打造的智能爬虫产品 Crawlab AI。针对传统爬虫需人工编写 XPath 或 CSS Selector 规则导致维护成本高、效率低的问题，Crawlab AI 利用 LLM 理解 HTML 结构的能力，自动提取目标数据并生成对应代码。文章详细阐述了其工作原理，包括 URL 输入、HTML 预处理、Prompt 构建、LLM 推理及代码生成流程。通过豆瓣电影列表和微信公众号文章的解析案例，展示了其在列表解析和文章提取方面的效果。同时，分析了当前面临的技术挑战如 Token 限制、动态内容渲染及准确率问题，并提出了未来的优化方向。该工具支持 Python、Node.js、Go 等多种语言代码生成，旨在降低数据获取门槛，提升数据从业者的工作效率。

莫名其妙发布于 2025/2/7更新于 2026/7/2040 浏览

基于大语言模型的智能爬虫 Crawlab AI 实践

'如果我当年去问顾客他们想要什么，他们肯定会告诉我：一匹更快的马' – 亨利•福特

前言

当我初入职场时，作为数据分析师的我，偶然体验到了网络爬虫（Web Crawler）自动化提取网页数据的能力，自此我一直对这个神奇的技术充满好奇。随着后来我不断钻研爬虫技术，逐渐了解到网络爬虫的核心技术，其中就包括网页解析（Parsing），即通过分析网页 HTML 结构而构建基于 XPath 或 CSS Selector 数据提取规则的过程。

这个过程长期以来都需要人工介入，虽然对于爬虫工程师来说相对简单，但如果需要大规模抓取，这个过程是非常消耗时间的，而且随着网页结构变化会增加爬虫维护成本。本篇文章将介绍我开发的基于**大语言模型（LLM）**的智能爬虫产品：Crawlab AI。虽然它还处于早期开发阶段，但已经展现出强大的潜力，有望让数据从业者轻松获取数据。

Crawlab AI 核心原理

根据前人关于 LLM 在数据抓取方面的研究结果，我突然意识到 LLM 在或许不仅擅长处理文本，还可以处理更多非结构化数据，包括 HTML。于是，我试着利用 LLM 去解析网页 HTML，并根据要求提取出相应的数据，发现效果出人意料的好。

LLM 不仅能准确提取出网页中的目标数据，而且能够将目标数据所在的节点路径通过 CSS Selector 提供出来。这样就可以让 LLM 根据 HTML 生成相应的提取规则，从而最终生成对应的爬虫代码。因此，利用 LLM 生成爬虫代码进行抓取的想法应运而生，我也根据这个思路发布了 Crawlab AI。

目前 Crawlab AI 处于早期开发阶段，只提供一个网页让用户输入待解析网页的 URL，然后自动解析出数据，并生成爬虫代码。

Crawlab AI 界面展示