结合大模型与爬虫的数据提取实践
最近在学习大模型的过程中,我突发奇想能否将大模型的能力结合爬虫,搞个 AI 爬虫玩一玩。本文将测试大模型的数据提取能力,并展示两种实现方案。
测试大模型的数据提取能力
首先,我们将一段豆瓣电影列表的 HTML 交给大模型,让大模型帮我们提取其中的数据。
<table width="100%" class="">
<tbody><tr class="item">
<td width="100" valign="top">
<a class="nbg" href="https://movie.douban.com/subject/34453198/" title="梦境">
<img src="https://img3.doubanio.com/view/photo/s_ratio_poster/public/p2910694617.webp" width="75" alt="梦境" class="">
</a>
</td>
<td valign="top">
<div class="pl2">
<a href="https://movie.douban.com/subject/34453198/" =>
梦境
/ 仙境 / Wonderland
2024-06-05(韩国) / 汤唯 / 裴秀智 / 朴宝剑 / 郑有美 / 崔宇植 / 孔刘 / 鲍起静 / 崔武成 / 全秀芝 / 韩国 / 金泰勇 / 113 分钟 / 梦境 / 剧情 / 爱情 / 科幻 / 金泰勇 Tae-Yong Kim / 韩语 / 英语 / 汉语普通话
6.4
(6899 人评价)


