30 行 Python 实现公开接口数据抓取与本地存储

介绍使用 Python 脚本抓取公开网页接口数据的完整流程。通过分析浏览器网络请求定位 API 接口，利用 requests 库发送请求，结合 tenacity 处理异常重试与频率限制，最终将数据导出为 CSV 格式。代码包含 User-Agent 随机化、断点续传逻辑及速率控制，旨在演示合规的数据采集技术，强调遵守 robots 协议与版权规范。

片刻发布于 2026/3/30更新于 2026/5/2627 浏览

用 30 行 Python 把公开合集数据搬进本地数据库

'目标网站'近日上线的新主题合集页采用前端渲染，数据通过 /api/v2/theme/list 接口一次性返回 JSON，无需模拟点击'加载更多'。接口无登录限制，但带 5 秒滑动窗口的 IP 频次校验：单 IP >30 次/分即返回 429。本文示范如何遵守 robots 协议、放缓速率，仅采集'公开可见'字段，并给出断点续抓、User-Agent 随机化、异常重试等常用技巧。

核心思路三步走：

分析列表接口：在浏览器 DevTools 里筛选 XHR，发现真实请求 URL 形如 https://example.com/api/v2/theme/list?page={page}&size=20，返回体含 data.total 与 data.list。
解析单条记录：字段 title、author、coverUrl 即为我们需要的元数据，无需再进详情页。
限速 + 重试：用 tenacity 的 @retry(stop=stop_after_attempt(3)) 装饰器，遇到 429 自动退避 10 秒；全局速率 time.sleep(random.uniform(1, 2))，确保平均 <30 次/分。

运行环境：Python≥3.7，依赖如下

pip install requests pandas tenacity fake-useragent

代码（文件 save_target_meta.py）：

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
抓取公开主题合集元信息，仅采集 title/author/coverUrl 三字段。
仅供学习，请遵守平台 robots.txt 与相关法律法规。
"""
import csv, time, random, requests
from tenacity import retry, stop_after_attempt, wait_fixed
from fake_useragent import UserAgent

BASE_URL = "https://example.com/api/v2/theme/list"
CSV_FILE = "target_meta.csv"
PAGE_SIZE = 20
MAX_PAGE = 50  # 按需调整，0 表示抓全量
SLEEP_RANGE = (1, 2)  # 秒，随机休眠

ua = UserAgent()
session = requests.Session()
session.headers.update({"Referer": "https://example.com/"})

@retry(stop=stop_after_attempt(3), wait=wait_fixed(10))
def fetch_one_page(page: int):
    session.headers.update({"User-Agent": ua.random})
    params = {"page": page, "size": PAGE_SIZE}
    resp = session.get(BASE_URL, params=params, timeout=10)
    if resp.status_code == 429:
        raise Exception("Rate limited")
    resp.raise_for_status()
    return resp.json()

def main():
    writer = None
    for p in range(1, MAX_PAGE + 1):
        print(f"[+] 正在抓取第 {p} 页 …")
        js = fetch_one_page(p)
        rows = [{"title": item["title"], "author": item["author"], "coverUrl": item["coverUrl"]} for item in js["data"]["list"]]
        if not writer:
            writer = csv.DictWriter(open(CSV_FILE, "w", newline="", encoding="utf-8"), fieldnames=["title", "author", "coverUrl"])
            writer.writeheader()
        writer.writerows(rows)
        if js["data"]["total"] <= p * PAGE_SIZE:
            break
        time.sleep(random.uniform(*SLEEP_RANGE))
    print(f"[√] 抓取完成，已写入 {CSV_FILE}")

if __name__ == "__main__":
    main()

运行后同级目录生成 target_meta.csv，可导入 Excel 或数据库二次分析。若需增量更新，可把 CSV_FILE 改为 SQLite，并在写入前按 title 做唯一索引去重。

再次提醒：仅抓取'公开可见'字段，不绕过登录、不破解加密参数；速率温和，不干扰站点正常服务；数据勿商用，尊重原作者版权。

用 30 行 Python 把公开合集数据搬进本地数据库

核心思路三步走：

分析列表接口：在浏览器 DevTools 里筛选 XHR，发现真实请求 URL 形如 https://example.com/api/v2/theme/list?page={page}&size=20，返回体含 data.total 与 data.list。
解析单条记录：字段 title、author、coverUrl 即为我们需要的元数据，无需再进详情页。
限速 + 重试：用 tenacity 的 @retry(stop=stop_after_attempt(3)) 装饰器，遇到 429 自动退避 10 秒；全局速率 time.sleep(random.uniform(1, 2))，确保平均 <30 次/分。

运行环境：Python≥3.7，依赖如下

pip install requests pandas tenacity fake-useragent

代码（文件 save_target_meta.py）：

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
抓取公开主题合集元信息，仅采集 title/author/coverUrl 三字段。
仅供学习，请遵守平台 robots.txt 与相关法律法规。
"""
import csv, time, random, requests
from tenacity import retry, stop_after_attempt, wait_fixed
from fake_useragent import UserAgent

BASE_URL = "https://example.com/api/v2/theme/list"
CSV_FILE = "target_meta.csv"
PAGE_SIZE = 20
MAX_PAGE = 50  # 按需调整，0 表示抓全量
SLEEP_RANGE = (1, 2)  # 秒，随机休眠

ua = UserAgent()
session = requests.Session()
session.headers.update({"Referer": "https://example.com/"})

@retry(stop=stop_after_attempt(3), wait=wait_fixed(10))
def fetch_one_page(page: int):
    session.headers.update({"User-Agent": ua.random})
    params = {"page": page, "size": PAGE_SIZE}
    resp = session.get(BASE_URL, params=params, timeout=10)
    if resp.status_code == 429:
        raise Exception("Rate limited")
    resp.raise_for_status()
    return resp.json()

def main():
    writer = None
    for p in range(1, MAX_PAGE + 1):
        print(f"[+] 正在抓取第 {p} 页 …")
        js = fetch_one_page(p)
        rows = [{"title": item["title"], "author": item["author"], "coverUrl": item["coverUrl"]} for item in js["data"]["list"]]
        if not writer:
            writer = csv.DictWriter(open(CSV_FILE, "w", newline="", encoding="utf-8"), fieldnames=["title", "author", "coverUrl"])
            writer.writeheader()
        writer.writerows(rows)
        if js["data"]["total"] <= p * PAGE_SIZE:
            break
        time.sleep(random.uniform(*SLEEP_RANGE))
    print(f"[√] 抓取完成，已写入 {CSV_FILE}")

if __name__ == "__main__":
    main()

运行后同级目录生成 target_meta.csv，可导入 Excel 或数据库二次分析。若需增量更新，可把 CSV_FILE 改为 SQLite，并在写入前按 title 做唯一索引去重。

再次提醒：仅抓取'公开可见'字段，不绕过登录、不破解加密参数；速率温和，不干扰站点正常服务；数据勿商用，尊重原作者版权。

30 行 Python 实现公开接口数据抓取与本地存储

用 30 行 Python 把公开合集数据搬进本地数据库

30 行 Python 实现公开接口数据抓取与本地存储

用 30 行 Python 把公开合集数据搬进本地数据库

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

30 行 Python 实现公开接口数据抓取与本地存储

用 30 行 Python 把公开合集数据搬进本地数据库

30 行 Python 实现公开接口数据抓取与本地存储

用 30 行 Python 把公开合集数据搬进本地数据库

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具