引言
AI 技术在今天已经是我们工作生活中不可或缺的工具,很多开发者致力于训练 AI 模型。高质量的数据是训练强大 AI 模型的核心驱动力,无论是自然语言处理、计算机视觉还是推荐系统,数据的规模、多样性和准确性直接决定了模型的性能和泛化能力。然而,在实际的数据采集过程中,往往面临着目标网站限制、IP 封锁、数据碎片化等挑战,导致数据获取效率低下,甚至影响模型训练效果。
要解决这些问题,IP 代理服务无疑是最佳选择。通过专业的代理 IP 服务配合高效的数据采集工具,能够为 AI 大模型训练提供稳定、可靠且合规的数据支持。接下来,我们将通过两个实际案例,分别体验远程抓取浏览器和预置数据集,看看它们如何简化数据采集流程,助力 AI 模型训练。
使用抓取浏览器采集商品页面
在数据采集过程中,许多开发者常常遇到令人头疼的反爬机制问题。验证码拦截、动态数据加载、内容隐藏等技术手段让不少开发者束手无策。针对这些痛点,远程抓取浏览器提供了完美的解决方案。通过内置的智能算法,抓取浏览器会模拟真实用户行为,自动处理各种反爬挑战,最终将完整的页面内容以 HTML 格式返回。
接下来我们一起配置抓取浏览器服务。登录控制面板后,开始配置抓取浏览器参数。
对于普通的网站,只需要配置名字即可,而对于一些保护机制比较复杂的网站则需要选购高级域名。
确定之后,就得到了访问抓取浏览器的参数,包括主机名、端口号、用户名和密码,后面需要用这些参数连接浏览器。注意这里一定要将自己的本机 IP 添加到白名单。
之后就可以通过抓取浏览器访问网站,并将结果发送至本地。接下来我们来编写爬虫程序。首先,我们定义 AUTH 变量,用来存储身份验证凭据,并通过该凭据构造 WebSocket CDP 地址,用于连接到远程的 Scraping Browser 代理。将目标爬取的网址保存在 url 中,并留出查询关键词的空位。
AUTH = 'your_auth_token_here'
SBR_WS_CDP = f'wss://{AUTH}@proxy.example.com:9222'
url = f'https://www.ebay.com/sch/i.html?_nkw='
之后,在 run 函数中,使用 async_playwright 连接到远程的 Scraping Browser,创建一个新的浏览器页面,并导航到指定的 URL。之后,获取网页的内容并返回。最后浏览器会在操作完成后关闭,以释放资源。
import asyncio
from playwright.async_api import async_playwright
from lxml import etree
async def run(pw, url):
print('Connecting to Scraping Browser...')
browser = await pw.chromium.connect_over_cdp(SBR_WS_CDP)
try:
page = await browser.new_page()
print('Connected! Navigating to webpage')
await page.goto(url)
html = await page.content()
return html
finally:
await browser.close()


