Python 爬虫 403 错误处理：Selenium 与普通请求对比 | 极客日志

Python

Python 爬虫 403 错误处理：Selenium 与普通请求对比

综述由AI生成对比了 Python 中使用 requests 和 Selenium 处理 403 错误的方案。requests 需手动构造请求头、代理及延时模拟浏览器；Selenium 通过驱动真实浏览器自动携带指纹，绕过 JS 反爬但性能较低。核心在于模拟真实用户行为，requests 适合静态页面，Selenium 适合动态页面。建议优先 requests，复杂场景结合登录 Cookie 或 undetected-chromedriver 优化。

ArchDesign发布于 2026/3/30更新于 2026/5/2433 浏览

一、Python 爬虫 403 错误的核心成因

403 Forbidden 本质是服务器对请求的「身份校验失败」，常见触发原因可分为以下几类：

请求头缺失或异常：服务器会校验 User-Agent、Referer、Cookie 等关键请求头，若缺失或为默认值（如 Python-urllib/3.8），会被判定为爬虫；
IP 封禁：同一 IP 短时间内高频请求，被服务器加入黑名单；
反爬机制检测：网站通过 JS 加密、验证码、浏览器指纹（如 navigator 对象）等识别非人工访问；
会话验证失败：部分网站需要先登录生成有效会话，无会话请求会直接返回 403。

普通 HTTP 请求（requests 库）和 Selenium 的核心差异，本质是「模拟请求」与「模拟真实浏览器行为」的区别，这也决定了二者处理 403 的能力边界。

二、普通请求（requests）vs Selenium：核心差异对比

维度	普通请求（requests）	Selenium
请求本质	构造 HTTP/HTTPS 请求包，无浏览器环境	驱动真实浏览器（Chrome/Firefox），模拟人工操作
请求头特征	需手动构造，易被识别为非浏览器请求	自动携带浏览器原生请求头，更接近真实用户
JS 渲染能力	无，无法处理动态加载内容	支持完整 JS 渲染，可绕过 JS 反爬
浏览器指纹检测	无指纹，易被识别	有完整浏览器指纹，不易被检测
性能	轻量，请求速度快	重量级，启动浏览器耗时，请求效率低
反爬绕过难度	高，需手动破解各类反爬规则	低，天然模拟人工行为，绕过基础反爬更简单

简言之：requests 适合爬取反爬较弱的静态页面，处理 403 需手动「伪装」请求；Selenium 适合爬取反爬严格的动态页面，通过模拟真实浏览器天然降低 403 概率，但牺牲了性能。

三、实战：处理 403 错误的代码实现

场景 1：requests 处理 403 错误（手动伪装请求）

核心思路

通过完善请求头、添加延时、使用代理 IP 等方式，模拟真实浏览器请求，绕过服务器的基础校验。

import requests
import time
from fake_useragent import UserAgent
# 需额外安装：pip install fake-useragent

def requests_crawl(url):
    # 1. 构造模拟浏览器的请求头
    ua = UserAgent()
    headers = {
        "User-Agent": ua.chrome,  # 随机生成 Chrome 浏览器 UA
        "Referer": url.split()[] +  + url.split()[],  
        : ,
        : ,
        : ,
        : ,
        : 
    }
    
    proxyHost = 
    proxyPort = 
    proxyUser = 
    proxyPass = 
    
    proxy_auth = 
    proxies = {
        : ,
        :   
    }
    :
        
        time.sleep()  
        response = requests.get(
            url=url,
            headers=headers,
            proxies=proxies,
            timeout=,
            allow_redirects=  
        )
        
         response.status_code == :
            (, (response.text))
             response.text
         response.status_code == :
            ()
             
        :
            ()
             
     Exception  e:
        ()
         


 __name__ == :
    target_url =   
    requests_crawl(target_url)

相关免费在线工具

curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online
JSON 压缩
通过删除不必要的空白来缩小和压缩JSON。在线工具，JSON 压缩在线工具，online

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.options import Options
import time

def selenium_crawl(url):
    # 1. 配置 Chrome 选项，模拟真实浏览器
    chrome_options = Options()
    # 禁用自动化提示（关键：避免被网站检测到 Selenium）
    chrome_options.add_experimental_option("excludeSwitches", ["enable-automation"])
    chrome_options.add_experimental_option('useAutomationExtension', False)
    # 禁用图片/视频加载，提升速度
    chrome_options.add_experimental_option("prefs", {
        "profile.managed_default_content_settings.images": 2,
        "profile.managed_default_content_settings.video": 2
    })
    # 添加启动参数，进一步伪装
    chrome_options.add_argument("--disable-blink-features=AutomationControlled")
    chrome_options.add_argument("--disable-dev-shm-usage")  # 解决容器环境内存不足问题
    chrome_options.add_argument("--no-sandbox")  # 禁用沙箱模式
    chrome_options.add_argument("--headless=new")  # 无头模式（无浏览器窗口），注释可显示窗口
    # 随机 UA（也可省略，浏览器会自动携带原生 UA）
    chrome_options.add_argument(f"user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36")
    
    # 2. 初始化浏览器驱动
    try:
        service = Service(ChromeDriverManager().install())
        driver = webdriver.Chrome(service=service, options=chrome_options)
        
        # 3. 执行 JS 移除 webdriver 标识（关键：绕过浏览器指纹检测）
        driver.execute_script("Object.defineProperty(navigator, 'webdriver', {get: () => undefined})")
        
        # 4. 访问目标 URL
        driver.get(url)
        time.sleep(2)  # 等待页面加载完成
        
        # 5. 校验响应状态（Selenium 无法直接获取状态码，通过页面内容判断）
        page_source = driver.page_source
        if "403 Forbidden" in page_source:
            print("Selenium 仍返回 403，需检查代理/登录状态")
        else:
            print("Selenium 爬取成功，页面长度：", len(page_source))
        
        # 6. 关闭浏览器
        driver.quit()
        return page_source
    except Exception as e:
        print(f"Selenium 请求异常：{str(e)}")
        return None

# 测试调用
if __name__ == "__main__":
    target_url = "https://example.com/test"  # 替换为实际目标 URL
    selenium_crawl(target_url)

Python 爬虫 403 错误处理：Selenium 与普通请求对比

一、Python 爬虫 403 错误的核心成因

二、普通请求（requests）vs Selenium：核心差异对比

三、实战：处理 403 错误的代码实现

场景 1：requests 处理 403 错误（手动伪装请求）

核心思路

更多推荐文章

相关免费在线工具

关键说明

场景 2：Selenium 处理 403 错误（模拟真实浏览器）

核心思路

关键说明

四、方案选择与优化建议

五、注意事项

总结

更多推荐文章

相关免费在线工具

Python 爬虫 403 错误处理：Selenium 与普通请求对比

一、Python 爬虫 403 错误的核心成因

二、普通请求（requests）vs Selenium：核心差异对比

三、实战：处理 403 错误的代码实现

场景 1：requests 处理 403 错误（手动伪装请求）

核心思路

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

关键说明

场景 2：Selenium 处理 403 错误（模拟真实浏览器）

核心思路

关键说明

四、方案选择与优化建议

五、注意事项

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具