Python Requests 库入门与实践：获取网络资源基础 | 极客日志

Python算法

Python Requests 库入门与实践：获取网络资源基础

使用 Python Requests 库进行网络数据获取的基础知识。内容包括发送 HTTP 请求、处理响应状态码与文本内容、下载二进制文件如图片。通过正则表达式演示了从 HTML 中提取标题和链接的方法，并以豆瓣电影 Top250 为例展示了分页爬取、User-Agent 模拟及 IP 代理的使用。最后总结了爬虫开发的注意事项，包括频率控制、异常处理及遵守 robots.txt 协议，并预告后续将介绍 BeautifulSoup 等解析工具。

灵魂摆渡发布于 2026/3/25更新于 2026/7/2148 浏览

用 Python 获取网络资源（一）：Requests 库入门与实践

学习概述

在网络数据采集领域，Python 有着得天独厚的优势，这得益于其丰富的第三方库生态。其中，requests 库是最简单、最人性化的 HTTP 客户端库之一，它让发送 HTTP 请求变得像访问本地文件一样简单。

通过本篇的学习，你将掌握：

使用 Requests 库发送 HTTP 请求
处理服务器响应，获取文本和二进制内容
设置请求头，模拟浏览器访问
使用正则表达式初步提取网页信息
了解 IP 代理的基本使用场景

用 Python 获取网络数据

为什么选择 Requests 库？

简单易用：API 设计直观，学习成本低
功能全面：支持 GET、POST 等各种 HTTP 方法，自动处理编码、Cookie 等
社区活跃：文档完善，遇到问题容易找到解决方案

初识 Requests：获取网页 HTML

下面是一个最简单的例子，演示如何使用 requests 获取搜狐首页的 HTML 代码：

import requests

# 发送 GET 请求
resp = requests.get('https://www.sohu.com/')

# 检查响应状态码（200 表示成功）
if resp.status_code == 200:
    # 打印网页 HTML 源代码
    print(resp.text[:1000])
else:
    print(f'请求失败，状态码：{resp.status_code}')

代码解析：requests.get() 发送 GET 请求，返回一个 Response 对象；resp.status_code 获取 HTTP 状态码；resp.text 获取响应内容的文本形式（自动解码）。

从 HTML 中提取信息：正则表达式初试

获取 HTML 只是第一步，我们通常需要从中提取特定信息。正则表达式是文本匹配的利器，下面示例从搜狐首页提取新闻标题和链接：

import re
import requests

# 匹配<a>标签中带有 title 属性的链接
pattern = re.compile(r'<a.*?href="(.*?)".*?title="(.*?)".*?>')

resp = requests.get('https://www.sohu.com/')

if resp.status_code == :
    all_matches = pattern.findall(resp.text)
     href, title  all_matches[:]:
        
        ()
        ()
        ( * )

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

import requests

# 百度 Logo 的 URL
logo_url = 'https://www.baidu.com/img/PCtm_d9c8750bed0b3c7d089fa7d55720d6cf.png'

resp = requests.get(logo_url)

if resp.status_code == 200:
    # 将二进制内容写入文件
    with open('baidu_logo.png', 'wb') as f:
        f.write(resp.content)
    print('图片下载完成！')
else:
    print('下载失败')

import random
import re
import time
import requests

for page in range(1, 11):
    # 循环 10 页
    # 计算当前页的 start 值
    start = (page - 1) * 25
    
    # 发送请求，设置 User-Agent 模拟浏览器
    resp = requests.get(
        url=f'https://movie.douban.com/top250?start={start}',
        headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}
    )
    
    if resp.status_code != 200:
        print(f'第{page}页请求失败')
        continue
    
    # 提取电影标题（中文标题）
    title_pattern = re.compile(r'<span>([^&]*?)</span>')
    titles = title_pattern.findall(resp.text)
    
    # 提取评分
    rating_pattern = re.compile(r'<span.*?>(.*?)</span>')
    ratings = rating_pattern.findall(resp.text)
    
    print(f'\n========== 第{page}页 ==========')
    for i, (title, rating) in enumerate(zip(titles, ratings), 1):
        print(f'{i:2d}. {title:30} 评分：{rating}')
    
    # 随机延迟，避免请求过于频繁
    delay = random.uniform(1, 3)
    time.sleep(delay)

print('\n数据抓取完成！')

import requests
import re

# 代理配置（需要替换为自己的 AppKey）
APP_KEY = '你的 AppKey'
PROXY_HOST = 'proxy.example.com:9001'

for page in range(1, 4):
    # 只测试前 3 页
    resp = requests.get(
        url=f'https://movie.douban.com/top250?start={(page - 1)*25}',
        headers={
            'Proxy-Authorization': f'Basic {APP_KEY}',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
        },
        proxies={
            'http': f'http://{PROXY_HOST}',
            'https': f'https://{PROXY_HOST}'
        },
        verify=False  # 跳过 SSL 证书验证（仅用于测试）
    )
    
    if resp.status_code == 200:
        # 提取逻辑同上
        titles = re.findall(r'<span>([^&]*?)</span>', resp.text)
        print(f'第{page}页获取到{len(titles)}部电影')
    else:
        print(f'第{page}页请求失败：{resp.status_code}')
    time.sleep(1)

Python Requests 库入门与实践：获取网络资源基础

用 Python 获取网络资源（一）：Requests 库入门与实践

学习概述

用 Python 获取网络数据

为什么选择 Requests 库？

初识 Requests：获取网页 HTML

从 HTML 中提取信息：正则表达式初试

更多推荐文章

相关免费在线工具

获取二进制资源：下载图片

实战项目：爬取豆瓣电影 Top250

1. 分析目标网站

2. 编写爬虫代码

3. 应对反爬：使用 IP 代理

爬虫开发注意事项

拓展学习：Requests 库更多功能

总结与预告

动手练习

更多推荐文章

相关免费在线工具

Python Requests 库入门与实践：获取网络资源基础

用 Python 获取网络资源（一）：Requests 库入门与实践

学习概述

用 Python 获取网络数据

为什么选择 Requests 库？

初识 Requests：获取网页 HTML

从 HTML 中提取信息：正则表达式初试

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

获取二进制资源：下载图片

实战项目：爬取豆瓣电影 Top250

1. 分析目标网站

2. 编写爬虫代码

3. 应对反爬：使用 IP 代理

爬虫开发注意事项

拓展学习：Requests 库更多功能

总结与预告

动手练习

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具