引言
随着人工智能技术的飞速发展,大语言模型(LLM)正在深刻改变软件开发和数据处理的范式。近期在学习大模型相关知识时,我发现 Prompt(提示词)技术具有强大的通用性,不禁思考:如果让大模型直接处理数据提取工作,是否意味着传统爬虫工程师需要掌握的技能栈将发生根本性变化?
本文通过实际案例验证,探讨利用大模型进行 HTML 数据提取的可行性、优势及对未来爬虫岗位的影响。
技术验证:大模型解析 HTML
为了测试大模型在结构化数据提取方面的能力,我们选取了豆瓣电影列表页面的 HTML 代码作为测试样本。该页面包含复杂的嵌套结构和动态属性,传统 XPath 或 CSS 选择器编写难度较高。
1. 原始 HTML 样本
以下是部分电影列表的 HTML 结构:
<div class="indent">
<div class="">
<p class="ul first"></p>
<table width="100%" class="">
<tbody><tr class="item">
<td width="100" valign="top">
<a class="nbg" href="https://movie.douban.com/subject/34453198/" title="梦境">
<img src="https://img3.doubanio.com/view/photo/s_ratio_poster/public/p2910694617.webp" width="75" alt= =>
梦境
/ 仙境 / Wonderland
2024-06-05(韩国) / 汤唯 / 裴秀智 / 朴宝剑 / 郑有美 / 崔宇植 / 孔刘 / 鲍起静 / 崔武成 / 全秀芝 / 韩国 / 金泰勇 / 113 分钟 / 梦境 / 剧情 / 爱情 / 科幻 / 金泰勇 Tae-Yong Kim / 韩语 / 英语 / 汉语普通话
6.4
(6899 人评价)


