上个月刚给一个客户做了美妆品类的竞品监控系统,上线不到一周,平台前端直接大改版,类名、标签结构全换,我之前写的 300 多行 XPath、CSS 选择器全废了。客户那边等着周度报表,我硬生生熬了两个通宵把所有规则重写了一遍,当时就一个念头:有没有什么办法,能彻底摆脱这种'网站一改版,代码全重写'的死循环?
做爬虫快 6 年了,从最开始手写正则,到 BeautifulSoup、PyQuery,再到 Scrapy 分布式集群、Playwright 动态渲染、JS 逆向破解加密,技术栈换了一茬又一茬,唯独这个核心痛点从来没被真正解决过——传统爬虫的核心逻辑,是'硬编码规则适配固定页面结构',只要页面变了,规则就必须跟着改,没有任何变通的余地。
直到今年开年,我把 AI Agent 和爬虫技术做了深度结合,搭了一套完全由 Prompt 驱动的爬虫系统,才真正实现了'零规则采集':不用写一行选择器,不用管页面结构怎么改,甚至不用提前知道网站的反爬策略,只用一句自然语言告诉它'我要什么数据',它就能自主完成从页面请求、反爬绕过、数据提取、分页遍历到结果存储的全流程。
这篇文章,我会把这套系统的完整架构、实战代码、踩坑实录全部分享出来,不是网上那种'调用个大模型 API 解析 HTML'的玩具代码,是真正能落地到生产环境、解决实际业务问题的方案。
一、先搞懂:我们到底要解决传统爬虫的什么痛点?
在讲架构之前,先把我们要解决的核心问题说透,这也是这套系统的设计初衷。做爬虫的同行应该都懂,传统开发模式里,80% 的时间都耗在了这 4 件事上:
- 规则维护成本极高:网站前端改版、类名混淆、结构调整,都会导致已有的选择器直接


