Python 爬虫代理 IP 配置与实战技巧 | 极客日志

Python

Python 爬虫代理 IP 配置与实战技巧

介绍 Python 爬虫中代理 IP 的配置方法与实战技巧。涵盖何时使用代理、requests 库的基础与认证代理配置、代理有效性检测函数编写、简易代理池实现逻辑以及常见避坑指南。通过代码示例展示如何设置超时、随机选择代理及重试机制，帮助解决 403 错误和 IP 封禁问题，确保爬虫稳定运行。

FrontendX发布于 2026/3/29更新于 2026/5/2927 浏览

在爬虫开发中，常遇到请求被限流、返回 403 或 IP 被封禁的情况。合理配置代理 IP 可解决大部分封禁问题。

何时必须使用代理

以下场景通常需要代理支持：

同一 IP 请求过于频繁
目标网站存在地区限制
脚本运行导致本机 IP 被封禁
批量爬取或多线程并发访问

代理的核心作用是：使用第三方 IP 进行访问。

requests 库基础配置

Python 爬虫常用 requests 库，本文仅介绍实用方法。

1. 基础代理格式

import requests

# 替换为实际代理 IP:端口
proxies = {
    "http": "http://IP:端口",
    "https": "http://IP:端口",
}

url = "https://httpbin.org/ip"
resp = requests.get(url, proxies=proxies, timeout=10)
print(resp.text)  # 验证是否返回代理 IP

注意事项：

http 和 https 协议均需配置，避免部分请求失效
务必设置 timeout，防止代理阻塞导致脚本挂起

2. 带认证的代理配置

许多付费代理服务需要账号密码认证，格式如下：

proxies = {
    "http": "http://用户名：密码@IP:端口",
    "https": "http://用户名：密码@IP:端口",
}

直接拼接即可，无需额外安装依赖库。

代理有效性检测

无论免费或付费，代理均可能失效。直接使用易导致超时或报错。建议预先编写验证函数：

def check_proxy(proxy):
    try:
        resp = requests.get(
            "https://httpbin.org/ip",
            proxies={"http": proxy, "https": proxy},
            timeout=8
        )
        return resp.status_code == 200
    except:
        return

相关免费在线工具

curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online
JSON 压缩
通过删除不必要的空白来缩小和压缩JSON。在线工具，JSON 压缩在线工具，online

import random

proxy_list = [
    "http://xxx.xxx.xxx.xxx:端口",
    "http://yyy.yyy.yyy.yyy:端口",
]

def get_random_proxy():
    proxy = random.choice(proxy_list)
    return {"http": proxy, "https": proxy}

for url in target_urls:
    proxies = get_random_proxy()
    try:
        resp = requests.get(url, proxies=proxies, timeout=10)
        # 执行解析逻辑
    except:
        continue

import requests
import random
import time

proxy_list = [
    "http://ip1:port",
    "http://ip2:port",
]

def crawl(url):
    for _ in range(5):  # 最多重试 5 次
        try:
            proxy = random.choice(proxy_list)
            proxies = {"http": proxy, "https": proxy}
            headers = {
                "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
            }
            resp = requests.get(
                url, proxies=proxies, headers=headers, timeout=10
            )
            if resp.status_code == 200:
                return resp.text
        except:
            time.sleep(1)
            continue
    return None

Python 爬虫代理 IP 配置与实战技巧

何时必须使用代理

requests 库基础配置

1. 基础代理格式

2. 带认证的代理配置

代理有效性检测

更多推荐文章

相关免费在线工具

简易代理池实现

常见避坑指南

推荐模板

总结

更多推荐文章

相关免费在线工具

Python 爬虫代理 IP 配置与实战技巧

何时必须使用代理

requests 库基础配置

1. 基础代理格式

2. 带认证的代理配置

代理有效性检测

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

简易代理池实现

常见避坑指南

推荐模板

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具