Python 爬虫高频问题与解决方案 | 极客日志

Python算法

Python 爬虫高频问题与解决方案

Python 爬虫开发中的 30 个高频问题及解决方案，涵盖 SSL 证书验证、JSONP 解析、URL 参数提取、反爬拦截（IP 封禁、UA 检测）、动态页面抓取、数据解析与存储异常等核心场景。内容包括 HTTPError 处理、正则匹配、路径编码、列表操作、缩进错误修复以及虚拟滚动翻页、JS 加密数据抓取等进阶问题的实战代码示例，帮助开发者快速定位并解决常见报错。

魔法巫师发布于 2026/3/30更新于 2026/5/3029 浏览

本文整理了 Python 爬虫开发中的 30 个高频问题及对应解决方案，覆盖 SSL 证书验证、JSONP 数据解析、URL 参数提取等基础场景，也针对反爬拦截（IP 封禁、User-Agent 检测）、动态页面抓取、数据解析/存储异常等核心痛点提供实战代码。包含 HTTPError: Forbidden、unicode 路径编码、正则匹配失败等具体报错的解决方法，还详解了虚拟滚动导致的翻页数据重复、JS 加密数据抓取等进阶问题，所有方案均附可直接复用的代码示例。

1. SSL 证书验证

爬取 HTTPS 网站或接口时，如果遇到不受信任的 SSL 证书，可以添加以下代码来忽略 SSL 证书验证：

import ssl
ssl._create_default_https_context = ssl._create_unverified_context

2. JSONP 数据解析

爬取 JSONP 接口时，返回的数据需要去掉 callback 名称和外层括号。可以通过以下方式过滤：

import re
import requests
getOneSongInfoCallback = json.loads(re.match(r".*?({.*}).*", requests.get(url, headers=headers).text)[1])

3. URL 参数提取

获取请求地址后的参数时，可以使用以下方法：

import urllib.parse as parse
parse_query = parse.urlparse(url).query
qs = parse.parse_qs(parse_query)

4. 反爬拦截处理

网站可能会通过验证码、User-Agent 检查、IP 封禁等方式阻止爬虫。

设置合理的请求头，模拟浏览器行为，包括 User-Agent、Referer 等。
使用代理 IP 或轮换 IP 地址，避免 IP 被封禁。
对于验证码，可以尝试使用验证码识别服务，或手动处理。

代码示例：

import requests
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'Referer': 'http://www.example.com'
}
proxies = {
    'http': 'http://your_proxy_ip:port',
    'https': 'http://your_proxy_ip:port'
}
response = requests.get(url, headers=headers, proxies=proxies)

5. 动态页面抓取

问题： 许多网站使用 JavaScript 动态生成内容，简单的 HTTP 请求无法获取这些数据。 解决方案：

使用 Selenium 等自动化测试工具模拟浏览器行为，抓取动态内容。
分析 Ajax 请求，使用 requests 库模拟发送 Ajax 请求。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

from selenium import webdriver
driver = webdriver.Chrome()
driver.get(url)
content = driver.page_source
driver.quit()

from bs4 import BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')
data = soup.select('.class')

import requests
import time
try:
    response = requests.get(url, headers=headers, proxies=proxies, timeout=5)
    response.raise_for_status()
except requests.RequestException as e:
    print(f"请求错误：{e}")
time.sleep(2)  # 每 2 秒请求一次

import csv
try:
    with open('data.csv', 'w', encoding='utf-8') as file:
        writer = csv.writer(file)
        # 写入数据
except IOError as e:
    print(f"IO 错误：{e}")

with open('D:\\test.txt','a',encoding='utf-8') as f:
    text = '\n'+zifuchuanbianliang
    f.write(text)

while aa in a:
    a.remove(aa)

with open('%s.html' % title, 'w', encoding='utf-8') as f:
    f.write(rep)

def scroll_to_bottom(driver, delay=2):
    last_height = driver.execute_script("return document.body.scrollHeight")
    while True:
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
        time.sleep(delay)
        new_height = driver.execute_script("return document.body.scrollHeight")
        if new_height == last_height:
            break
        last_height = new_height

import requests
def fetch_api_data(url, params):
    headers = {
        "User-Agent": "Mozilla/5.0...",
        "X-Requested-With": "XMLHttpRequest"
    }
    response = requests.get(url, headers=headers, params=params)
    return response.json()["data"]["list"] # 根据实际结构调整

def wait_for_new_content(driver, original_elements, timeout=10):
    start_time = time.time()
    while time.time() - start_time < timeout:
        new_elements = driver.find_elements_by_css_selector(".item")
        if len(new_elements) > len(original_elements):
            return new_elements
        time.sleep(0.5)
    raise TimeoutError("新内容未加载")

Python 爬虫高频问题与解决方案

1. SSL 证书验证

2. JSONP 数据解析

3. URL 参数提取

4. 反爬拦截处理

5. 动态页面抓取

更多推荐文章

相关免费在线工具

6. 数据解析问题

7. 网络请求问题

8. 数据存储问题

9. HTTPError: Forbidden

10. nothing to repeat 的问题

11. 写入 txt 的问题

12. Unicode escape 错误

13. 正则表达式排除特定字符串

14. 删除字符串的首尾

15. 'type' object is not subscriptable

16. 删除掉列表当中指定的元素

17. unindent does not match any outer indentation level

18. IP 被封或访问频率太高被拦截

19. 正确使用 XPath 之后并没有输出

20. 容易被反爬搞死

21. 类型错误：需要类似字节的对象，而不是字符串

22. GBK 编码错误

23. 输出结果是字节类型，json 对象无法正常显示

24. URL 乱码问题

25. URL 地址不规范

27. 爬取下载的图片打不开

28. 数据一致性：翻页的'幽灵重复'诡异现象

29. 反爬虫机制：使用 JavaScript 加密数据

30. 访问网页返回数据异常

更多推荐文章

相关免费在线工具

Python 爬虫高频问题与解决方案

1. SSL 证书验证

2. JSONP 数据解析

3. URL 参数提取

4. 反爬拦截处理

5. 动态页面抓取

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

6. 数据解析问题

7. 网络请求问题

8. 数据存储问题

9. HTTPError: Forbidden

10. nothing to repeat 的问题

11. 写入 txt 的问题

12. Unicode escape 错误

13. 正则表达式排除特定字符串

14. 删除字符串的首尾

15. 'type' object is not subscriptable

16. 删除掉列表当中指定的元素

17. unindent does not match any outer indentation level

18. IP 被封或访问频率太高被拦截

19. 正确使用 XPath 之后并没有输出

20. 容易被反爬搞死

21. 类型错误：需要类似字节的对象，而不是字符串

22. GBK 编码错误

23. 输出结果是字节类型，json 对象无法正常显示

24. URL 乱码问题

25. URL 地址不规范

26. Cookie 管理问题

27. 爬取下载的图片打不开

28. 数据一致性：翻页的'幽灵重复'诡异现象

29. 反爬虫机制：使用 JavaScript 加密数据

30. 访问网页返回数据异常

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具