ScrapeGraphAI:基于大语言模型的智能网络爬虫工具
你是否曾想过,如果有一个工具能够理解你的意图并自动执行复杂的网络数据抓取任务,那会怎样?ScrapeGraphAI 正是这样一个工具。它利用最新的人工智能技术(LLM),让数据提取变得前所未有地简单。
工具概述
ScrapeGraphAI 是一个用于网络抓取的 Python 库。它使用大语言模型(LLM)和直接图(Direct Graph)为网站、文档和 XML 文件创建抓取管道。用户只需输入想要提取的信息描述(Prompt),系统便会自动解析页面结构并返回结果。
核心优势
- 简单易用:只需配置 API 密钥,即可在几秒钟内处理大量网页。
- 开发便捷:仅需几行代码即可完成复杂的数据清洗与提取工作。
- 专注业务逻辑:节省数小时的手动编写解析器时间,将精力集中在业务需求上。
快速开始
环境准备
确保已安装 Python 3.8+ 环境。
1. 安装库
使用 pip 安装 scrapegraphai:
pip install scrapegraphai
2. 安装浏览器自动化工具
为了支持客户端渲染(由 JavaScript 动态渲染)的网页,需要安装 Playwright:
playwright install
Playwright 是一个强大的 Python 库,仅用一个 API 即可自动执行 Chromium、Firefox、WebKit 等主流浏览器的自动化操作。
在线示例
官方提供了 Streamlit 演示和 Google Colab 笔记本供快速体验:
- Streamlit Demo: https://scrapegraph-ai-demo.streamlit.app/
- Google Colab: https://colab.research.google.com/drive/1sEZBonBMGP44CtO6GQTwAlL0BGJXjtfd
核心功能模块
ScrapeGraphAI 内置了三种主要的网页爬取流程,适用于不同场景:
- SmartScraperGraph:单页抓取工具。仅需用户提示词和输入源,适合从特定 URL 提取结构化数据。
- SearchGraph:多页抓取工具。从搜索引擎的前 n 个搜索结果中提取信息,适合竞品分析或市场调研。
- SpeechGraph:单页抓取工具。从网站提取信息并生成音频文件,适合无障碍访问或内容播报。
使用示例
ScrapeGraphAI 支持通过 API 使用不同的 LLM,例如 OpenAI、Groq、Azure 和 Gemini,或使用 Ollama 的本地模型。
示例一:使用 Ollama API 提取信息
此示例展示了如何配置本地运行的 Ollama 模型进行数据提取。
from scrapegraphai.graphs import SmartScraperGraph
import os
graph_config = {
: {
: ,
: ,
: ,
: ,
},
: {
: ,
: ,
}
}
smart_scraper_graph = SmartScraperGraph(
prompt=,
source=,
config=graph_config
)
result = smart_scraper_graph.run()
(result)


