Python 多线程实战指南：从基础到爬虫应用 | 极客日志

Python算法

Python 多线程实战指南：从基础到爬虫应用

Python 多线程通过 threading 模块实现并发执行，适用于 IO 密集型任务如网络爬虫。线程创建、参数传递、循环管理、共享变量锁（Lock）及线程数量限制（Semaphore）。结合豆瓣影评爬取案例展示加速效果，并补充 GIL 机制说明及多进程、协程等替代方案对比，帮助开发者掌握高效并发编程技巧。

不羁发布于 2025/2/7更新于 2026/6/222 浏览

在 Python 中，多线程最常见的一个场景就是爬虫。例如，有多个结构一样的页面需要爬取，例如下方的 URL（豆瓣阿凡达影评，以 10 个为例）。

url_list = [
    'https://movie.douban.com/subject/1652587/reviews?sort=time&start=0',
    'https://movie.douban.com/subject/1652587/reviews?sort=time&start=20',
    'https://movie.douban.com/subject/1652587/reviews?sort=time&start=40',
    'https://movie.douban.com/subject/1652587/reviews?sort=time&start=60',
    'https://movie.douban.com/subject/1652587/reviews?sort=time&start=80',
    'https://movie.douban.com/subject/1652587/reviews?sort=time&start=100',
    'https://movie.douban.com/subject/1652587/reviews?sort=time&start=120',
    'https://movie.douban.com/subject/1652587/reviews?sort=time&start=140',
    'https://movie.douban.com/subject/1652587/reviews?sort=time&start=160',
    'https://movie.douban.com/subject/1652587/reviews?sort=time&start=180'
]

如果依次爬取，请求第一个页面——得到返回数据——解析数据——提取、存储数据——请求第二个页面，按照这样的思路，大量时间都会浪费在请求、返回数据上。如果在等待第一个页面返回数据时去请求第二个页面，就能有效地提高效率，多线程就可以实现这样的功能。

在 Python 中实现多线程的方法也很多，我将基于 threading 模块一点一点介绍。注意本文不会太注重于多线程背后的技术概念（面试常问），仅希望用最少的话教会大家如何实现。当然会在最后介绍如何使用 threading 模块来解决上面的爬虫问题。

threading 基本使用

让我们先从一个简单的例子开始，定义 do_something 函数，执行该函数需要消耗 1 秒。

import time

start = time.perf_counter()

def do_something():
    print("-> 线程启动")
    time.sleep(1)
    print("-> 线程结束")

do_something()

finish = time.perf_counter()

print(f"全部任务执行完成，耗时 {round(finish - start, 2)} 秒")

上面的代码不难理解，执行 do_something 并计算耗时，结果很明显应该是 1s。

-> 线程启动
-> 线程结束
全部任务执行完成，耗时 1.01 秒

现在如果需要执行两次 do_something，按照最基本的思路：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

import time

start = time.perf_counter()

def do_something():
    print("-> 线程启动")
    time.sleep(1)
    print("-> 线程结束")

do_something()
do_something()

finish = time.perf_counter()

print(f"全部任务执行完成，耗时 {round(finish - start, 2)} 秒")

-> 线程启动
-> 线程结束
-> 线程启动
-> 线程结束
全部任务执行完成，耗时 2.01 秒

import time
import threading

start = time.perf_counter()

def do_something():
    print("-> 线程启动")
    time.sleep(1)
    print("-> 线程结束")

thread1 = threading.Thread(target=do_something)
thread2 = threading.Thread(target=do_something)

thread1.start()
thread2.start()

finish = time.perf_counter()

print(f"全部任务执行完成，耗时 {round(finish - start, 2)} 秒")

-> 线程启动
-> 线程启动
全部任务执行完成，耗时 0.0 秒
-> 线程结束
-> 线程结束

import time
import threading

start = time.perf_counter()

def do_something():
    print("-> 线程启动")
    time.sleep(1)
    print("-> 线程结束")

thread1 = threading.Thread(target=do_something)
thread2 = threading.Thread(target=do_something)

thread1.start()
thread2.start()

thread1.join()
thread2.join()

finish = time.perf_counter()

print(f"全部任务执行完成，耗时 {round(finish - start, 2)} 秒")

-> 线程启动
-> 线程启动
-> 线程结束
-> 线程结束
全部任务执行完成，耗时 1.01 秒

def do_something(num):
    print(f"-> 线程{num} 启动，睡眠 {num} 秒")
    time.sleep(num)
    print(f"-> 线程{num} 结束")

import time
import threading

start = time.perf_counter()

def do_something(num):
    print(f"-> 线程{num} 启动，睡眠 {num} 秒")
    time.sleep(num)
    print(f"-> 线程{num} 结束")

thread1 = threading.Thread(target=do_something, args=[1])
thread2 = threading.Thread(target=do_something, args=[2])

thread1.start()
thread2.start()

thread1.join()
thread2.join()

finish = time.perf_counter()

print(f"全部任务执行完成，耗时 {round(finish - start, 2)} 秒")

-> 线程 1 启动，睡眠 1 秒
-> 线程 2 启动，睡眠 2 秒
-> 线程 1 结束
-> 线程 2 结束
全部任务执行完成，耗时 2.01 秒

import time
import threading

start = time.perf_counter()

def do_something(num):
    print(f"-> 线程{num} 启动，睡眠 {num} 秒")
    time.sleep(num)
    print(f"-> 线程{num} 结束")

thread_list = []

for i in range(1, 11):
    thread = threading.Thread(target=do_something, args=[i])
    thread.start()
    thread_list.append(thread)

for t in thread_list:
    t.join()

finish = time.perf_counter()

print(f"全部任务执行完成，耗时 {round(finish - start, 2)} 秒")

import time
import threading
import requests
import pandas as pd
from faker import Faker
from bs4 import BeautifulSoup

def craw_url(url, df_lock):
    fake = Faker()
    headers = {'User-Agent': fake.user_agent()}
    try:
        r = requests.get(url, headers=headers, timeout=10)
        soup = BeautifulSoup(r.content, 'html.parser')
        review_list = soup.find_all(class_="main review-item")

        new_data = []
        for i in range(len(review_list)):
            rank = review_list[i].select('span')[0].get('title')
            time1 = review_list[i].select('span')[1].get('content')
            title = review_list[i].select('h2>a')[0].text
            new_data.append({'时间': time1, '评分': rank, '标题': title})

        with df_lock:
            if new_data:
                temp_df = pd.DataFrame(new_data)
                df = pd.concat([df, temp_df], ignore_index=True)

        print("-> 爬取完成")
    except Exception as e:
        print(f"爬取失败：{e}")
    return df

if __name__ == '__main__':
    start = time.perf_counter()
    df = pd.DataFrame(columns=['时间', '评分', '标题'])
    lock = threading.Lock()

    url_list = [
        'https://movie.douban.com/subject/1652587/reviews?sort=time&start=0',
        'https://movie.douban.com/subject/1652587/reviews?sort=time&start=20',
        'https://movie.douban.com/subject/1652587/reviews?sort=time&start=40',
        'https://movie.douban.com/subject/1652587/reviews?sort=time&start=60',
        'https://movie.douban.com/subject/1652587/reviews?sort=time&start=80',
        'https://movie.douban.com/subject/1652587/reviews?sort=time&start=100',
        'https://movie.douban.com/subject/1652587/reviews?sort=time&start=120',
        'https://movie.douban.com/subject/1652587/reviews?sort=time&start=140',
        'https://movie.douban.com/subject/1652587/reviews?sort=time&start=160',
        'https://movie.douban.com/subject/1652587/reviews?sort=time&start=180'
    ]
    
    thread_list = []
    for i in url_list:
        thread = threading.Thread(target=craw_url, args=[i, lock])
        thread.start()
        thread_list.append(thread)

    for t in thread_list:
        t.join()

    finish = time.perf_counter()
    print(f"全部任务执行完成，耗时 {round(finish - start, 2)} 秒")

Python 多线程实战指南：从基础到爬虫应用

threading 基本使用

更多推荐文章

相关免费在线工具

传递参数

简化代码

共享变量锁的问题

限制线程数量

注意事项与最佳实践

GIL 机制说明

错误处理

替代方案

一个真实的多线程爬虫案例

更多推荐文章

相关免费在线工具

Python 多线程实战指南：从基础到爬虫应用

threading 基本使用

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

传递参数

简化代码

共享变量锁的问题

限制线程数量

注意事项与最佳实践

GIL 机制说明

错误处理

替代方案

一个真实的多线程爬虫案例

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具