Python 爬虫入门：基础类库与实战案例详解 | 极客日志

Python算法

Python 爬虫入门：基础类库与实战案例详解

综述由AI生成Python 爬虫的基础知识与实战技巧。内容涵盖 urllib 标准库的使用，包括请求发送、响应读取、URL 编码及文件写入。通过百度翻译、肯德基店铺、豆瓣电影等案例演示了 GET 与 POST 请求的处理方法，以及 Ajax 动态数据的抓取。此外，文章还补充了 Requests 库的高级用法、Session 会话管理、异常处理机制、HTML 解析方案以及常见的反爬策略与合规注意事项，旨在帮助读者建立完整的爬虫开发知识体系。

无尘发布于 2025/2/7更新于 2026/6/219 浏览

Python 爬虫入门：基础类库与实战案例详解

1. 概述

网络爬虫（Web Crawler）是自动化抓取互联网信息的技术。在 Python 中，最基础的爬虫开发通常基于标准库 urllib，但实际工程中更推荐使用第三方库 requests 配合 BeautifulSoup 或 lxml 进行解析。本文将详细介绍从基础请求到高级反爬策略的完整流程。

2. 基础类库：urllib

2.1 引入与请求

Python 内置的 urllib 模块提供了处理 URL 的核心功能。

from urllib import request, parse
import json

# 定义目标 URL
url = "http://www.baidu.com"

# 发起请求，返回响应对象
response = request.urlopen(url)

2.2 读取响应内容

响应对象包含状态码、URL 和响应体等信息。

# 读取响应体（字节形式）
data_bytes = response.read()

# 解码为文本（注意编码格式，通常为 utf-8）
text = data_bytes.decode("utf-8")
print(text)

# 获取状态码
status_code = response.getcode()

# 获取最终请求地址（可能包含重定向）
final_url = response.geturl()

# 获取响应头
headers = response.getheaders()

2.3 写入文件

将抓取的网页源码保存至本地。

with open('baidu.html', 'w', encoding='utf-8') as fp:
    fp.write(text)

2.4 URL 编码处理

在构造请求参数时，特殊字符需要进行 URL 编码。

# 单个参数编码
encoded_name = parse.quote("小鲁班")

# 多个参数编码
params_dict = {
    "name": "肖",
    "password": "213123 丽华",
    "age": "五十岁"
}
base_url = 
encoded_params = parse.urlencode(params_dict)
full_url = base_url + encoded_params

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

url = "https://tieba.baidu.com/f?kw=斗罗大陆&ie=utf-8&pn=0"
req = request.Request(url=url)
response = request.urlopen(req)
text = response.read().decode('utf-8')

post_url = "https://fanyi.baidu.com/sug"
data_dict = {"kw": "sogreat"}

# 编码并转为 bytes
data = parse.urlencode(data_dict).encode("utf-8")

# 封装请求对象
req = request.Request(url=post_url, headers={}, data=data)
response = request.urlopen(req)
text = response.read().decode('utf-8')

# 解析 JSON
json_obj = json.loads(text, encoding='utf-8')
for item in json_obj["data"]:
    print(item)

headers = {
    'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36"
}
req = request.Request(url=url, headers=headers)
response = request.urlopen(req)

headers1 = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36 Edg/100.0.1185.44"
}
newaddr = input("请输入城市名:")
KFCurl = "http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword"
pageindex = 1

while True:
    datas = {
        "cname": "",
        "pid": "",
        "pageIndex": pageindex,
        "pageSize": 10,
        "keyword": newaddr
    }
    # 编码转码
    data = parse.urlencode(datas).encode(encoding="utf-8")
    req1 = request.Request(url=KFCurl, headers=headers1, data=data)
    
    try:
        response1 = request.urlopen(req1, timeout=10)
        address = response1.read().decode('utf-8')
        address1 = json.loads(address)
        
        if len(address1['Table1']) == 0:
            break
        for addr in address1['Table1']:
            print(addr)
        pageindex += 1
    except Exception as e:
        print(f"请求出错：{e}")
        break

headers = {
    'User-Agent': "Mozilla/5.0 (Linux; Android 11; Pixel 5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.91 Mobile Safari/537.36"
}

base_url = "https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=&start={}&genres=%E5%8A%A8%E7%94%BB"

for p in range(0, 4):
    total = p * 20
    url = base_url.format(total)
    req = request.Request(url=url, headers=headers)
    response = request.urlopen(req)
    text = response.read().decode('utf-8')
    
    json_obj = json.loads(text)
    for val in json_obj['data']:
        title = val['title']
        rate = val['rate']
        print(f"title:{title}, rate:{rate}")

import requests

response = requests.get(url, headers=headers)
print(response.text)

session = requests.Session()
resp = session.post(login_url, data=login_data)
# 后续请求会自动携带登录后的 Cookie
resp2 = session.get(target_url)

try:
    response = requests.get(url, timeout=5)
    response.raise_for_status()
except requests.exceptions.Timeout:
    print("请求超时")
except requests.exceptions.HTTPError as err:
    print(f"HTTP 错误：{err}")

from bs4 import BeautifulSoup
soup = BeautifulSoup(text, 'html.parser')
titles = soup.find_all('div', class_='title')

Python 爬虫入门：基础类库与实战案例详解

Python 爬虫入门：基础类库与实战案例详解

1. 概述

2. 基础类库：urllib

2.1 引入与请求

2.2 读取响应内容

2.3 写入文件

2.4 URL 编码处理

更多推荐文章

相关免费在线工具

3. 常见请求方式

3.1 GET 请求

3.2 POST 请求

案例：百度翻译接口

3.3 伪装浏览器访问

4. 进阶实战案例

4.1 批量抓取 KFC 店铺信息

4.2 Ajax 动态加载数据

案例：豆瓣电影动画排行榜

5. 工程化优化建议

5.1 使用 Requests 库

5.2 Session 管理

5.3 异常处理与重试

5.4 数据解析

6. 反爬策略与合规

6.1 常见反爬手段

6.2 道德与法律

7. 总结

更多推荐文章

相关免费在线工具

Python 爬虫入门：基础类库与实战案例详解

Python 爬虫入门：基础类库与实战案例详解

1. 概述

2. 基础类库：urllib

2.1 引入与请求

2.2 读取响应内容

2.3 写入文件

2.4 URL 编码处理

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 常见请求方式

3.1 GET 请求

3.2 POST 请求

案例：百度翻译接口

3.3 伪装浏览器访问

4. 进阶实战案例

4.1 批量抓取 KFC 店铺信息

4.2 Ajax 动态加载数据

案例：豆瓣电影动画排行榜

5. 工程化优化建议

5.1 使用 Requests 库

5.2 Session 管理

5.3 异常处理与重试

5.4 数据解析

6. 反爬策略与合规

6.1 常见反爬手段

6.2 道德与法律

7. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具