大模型时代的爬虫新范式:基于 Prompt 的数据提取实践
随着人工智能技术的飞速发展,大型语言模型(LLM)在自然语言理解、代码生成及非结构化数据处理方面展现出了惊人的能力。最近在学习大模型相关知识时,我意识到 Prompt(提示词)工程不仅可以用于对话,还能高效地完成数据提取任务。如果让大模型直接处理 HTML 代码并输出结构化数据,传统的爬虫工程师是否还需要掌握复杂的 JS 逆向和 XPath 选择器?
一、案例演示:利用大模型提取豆瓣电影信息
为了验证这一想法,我们选取了豆瓣电影列表页面的 HTML 代码作为测试样本。传统爬虫需要编写 CSS 选择器或正则表达式来定位标题、评分、简介等字段,而使用大模型则只需提供清晰的指令。
1. 原始 HTML 片段
以下是从目标页面获取的部分 HTML 结构(已做简化处理):
<div class="indent">
<table width="100%" class="">
<tbody>
<tr class="item">
<td width="100" valign="top">
<a class="nbg" href="https://movie.douban.com/subject/34453198/" title="梦境">
<img src="https://img3.doubanio.com/view/photo/s_ratio_poster/public/p2910694617.webp" width="75" alt="梦境" class="">
</a>
</td>
梦境
/ 仙境 / Wonderland
2024-06-05(韩国) / 汤唯 / 裴秀智 / ... / 剧情 / 爱情 / 科幻
6.4
(6899 人评价)


