Python 爬虫实战：爬取豆瓣电影 Top250 数据 | 极客日志

Python

Python 爬虫实战：爬取豆瓣电影 Top250 数据

介绍如何使用 Python 爬取豆瓣电影 Top250 数据，涵盖页面分析、HTTP 请求、HTML 解析与数据存储全过程。通过 requests 和 BeautifulSoup 实现静态网页数据抓取，结合正则表达式清洗复杂字段，最终将数据保存为 CSV 与 Markdown 格式，适用于爬虫入门实践与影视数据分析。

ByteFlow发布于 2026/2/16更新于 2026/6/326 浏览

前言

豆瓣电影 Top250 榜单汇聚了全球范围内口碑极佳的电影作品，其评分、影评、导演、演员等数据是电影爱好者和数据分析从业者的重要参考。掌握豆瓣电影 Top250 数据的爬取方法，既能帮助整理优质观影清单，也能为电影市场分析、用户偏好研究提供基础数据源。本文将详细讲解如何使用 Python 爬取豆瓣电影 Top250 的完整数据，涵盖页面分析、数据请求、HTML 解析、数据存储等核心环节，代码规范可直接运行，适合爬虫初学者系统学习。

摘要

本文以豆瓣电影 Top250 页面（https://movie.douban.com/top250）为爬取目标，通过分析豆瓣电影的分页页面结构，使用 requests 库发送 HTTP 请求获取页面 HTML 数据，借助 BeautifulSoup 解析页面提取电影排名、名称、评分、导演、演员、上映年份、类型、简介等核心信息，并将数据存储为 CSV 文件和 Markdown 观影清单。文中包含完整可运行的代码、详细的代码解析、输出结果及核心原理说明，帮助读者掌握静态网页爬虫在影视数据爬取场景的应用思路。

一、环境准备

1.1 所需 Python 库

爬取豆瓣电影 Top250 需要用到以下核心库，各库的作用如下表所示：

库名称	版本建议	核心作用
requests	2.31.0+	发送 HTTP 请求，获取页面 HTML 数据
beautifulsoup4	4.12.0+	解析 HTML 文档，提取目标数据
csv	内置库	将结构化的电影数据写入 CSV 文件
time	内置库	设置请求间隔，规避反爬机制
fake-useragent	1.4.0+	生成随机 User-Agent，模拟浏览器请求
re	内置库	正则表达式清洗数据，提取纯文本信息

1.2 库的安装

打开终端 / 命令提示符，执行以下命令安装所需库：

pip install requests beautifulsoup4 fake-useragent

二、爬虫核心原理

2.1 豆瓣电影 Top250 页面结构分析

豆瓣电影 Top250 采用分页展示（每页 25 部电影，共 10 页），分页 URL 格式为：https://movie.douban.com/top250?start={offset}&filter=（offset为偏移量，取值 0、25、50...225）。

页面核心电影数据包含在 <div> 标签内，每个标签对应一部电影，关键子标签及含义：

标签路径	含义	提取方式
div.pic em	电影排名	`soup.find('em',).text`
div.info span.title[0]

相关免费在线工具

curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online
JSON 压缩
通过删除不必要的空白来缩小和压缩JSON。在线工具，JSON 压缩在线工具，online

import requests
import csv
import time
import re
import random
from fake_useragent import UserAgent
from bs4 import BeautifulSoup
from requests.exceptions import RequestException

class DoubanTop250Crawler:
    def __init__(self):
        """初始化豆瓣电影Top250爬虫"""
        # 初始化请求头
        self.ua = UserAgent()
        self.headers = {
            'User-Agent': self.ua.random,
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
            'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
            'Referer': 'https://movie.douban.com/',
            'Connection': 'keep-alive',
            'Upgrade-Insecure-Requests': '1'
        }
        # 核心配置
        self.base_url = 'https://movie.douban.com/top250'
        self.movie_data = []  # 存储爬取的电影数据

    def clean_text(self, text):
        """清洗文本，去除多余空格和换行"""
        if not text:
            return ''
        return re.sub(r'\s+', ' ', text).strip()

    def parse_movie_info(self, movie_tag):
        """解析单部电影的标签，提取核心信息"""
        try:
            # 1. 提取排名
            rank = movie_tag.find('em').text if movie_tag.find('em') else '0'

            # 2. 提取电影名称
            title_tags = movie_tag.find_all('span', class_='title')
            chinese_title = title_tags[0].text if title_tags else '未知名称'
            if len(title_tags) > 1:
                foreign_title = self.clean_text(title_tags[1].text.replace('/', ''))
            else:
                foreign_title = ''

            # 3. 提取评分
            rating = movie_tag.find('span', class_='rating_num').text if movie_tag.find('span', class_='rating_num') else '0'

            # 4. 提取评分人数
            rating_people_tag = movie_tag.find('div', class_='star').find_all('span')[-1]
            rating_people = self.clean_text(rating_people_tag.text.replace('人评价', '')) if rating_people_tag else '0'

            # 5. 提取导演、演员、年份、国家、类型
            info_text = self.clean_text(movie_tag.find('div', class_='bd').find('p').text)
            director = re.findall(r'导演: (.*?) ', info_text)[0] if re.findall(r'导演: (.*?) ', info_text) else '未知导演'
            actors = re.findall(r'主演: (.*?) \d', info_text)[0] if re.findall(r'主演: (.*?) \d', info_text) else '未知演员'
            year = re.findall(r'(\d{4})', info_text)[0] if re.findall(r'(\d{4})', info_text) else '未知年份'
            country = re.findall(r'/\s*(.*?)\s*/', info_text)[0] if re.findall(r'/\s*(.*?)\s*/', info_text) else '未知国家'
            genre = re.findall(r'/[^/]*$', info_text)[0].replace('/', '').strip() if re.findall(r'/[^/]*$', info_text) else '未知类型'

            # 6. 提取简介
            quote = movie_tag.find('span', class_='inq').text if movie_tag.find('span', class_='inq') else '无简介'

            # 7. 提取电影详情链接
            detail_link = movie_tag.find('a')['href'] if movie_tag.find('a') else ''

            # 组装数据
            movie_info = {
                '排名': int(rank),
                '中文名称': chinese_title,
                '外文名称': foreign_title,
                '豆瓣评分': float(rating),
                '评分人数': rating_people,
                '导演': director,
                '主演': actors,
                '上映年份': year,
                '制片国家/地区': country,
                '类型': genre,
                '简介': quote,
                '详情链接': detail_link
            }
            return movie_info
        except Exception as e:
            print(f"解析单部电影失败：{e}")
            return None

    def get_page(self, offset):
        """爬取指定偏移量的页面数据"""
        # 构造分页URL
        url = f'{self.base_url}?start={offset}&filter='
        try:
            # 设置随机请求间隔（2-5秒）
            time.sleep(random.uniform(2, 5))
            response = requests.get(url=url, headers=self.headers, timeout=15)
            # 验证响应状态
            response.raise_for_status()
            # 设置正确编码
            response.encoding = 'utf-8'
            return response.text
        except RequestException as e:
            print(f"偏移量{offset}页面请求失败：{e}")
            return None

    def parse_page(self, html):
        """解析页面HTML，提取所有电影数据"""
        if not html:
            return
        soup = BeautifulSoup(html, 'html.parser')
        # 定位所有电影项标签
        movie_items = soup.find_all('div', class_='item')
        for item in movie_items:
            movie_info = self.parse_movie_info(item)
            if movie_info:
                self.movie_data.append(movie_info)
                print(f"已爬取：第{movie_info['排名']}名 - {movie_info['中文名称']}（{movie_info['豆瓣评分']}分）")

    def save_data(self):
        """保存电影数据到CSV和Markdown文件"""
        if not self.movie_data:
            print("无数据可保存")
            return
        # 按排名排序
        sorted_data = sorted(self.movie_data, key=lambda x: x['排名'])
        # 1. 保存为CSV文件（结构化数据）
        csv_headers = [
            '排名', '中文名称', '外文名称', '豆瓣评分', '评分人数', '导演', '主演', '上映年份', '制片国家/地区', '类型', '简介', '详情链接'
        ]
        with open('douban_top250.csv', 'w', encoding='utf-8-sig', newline='') as f:
            writer = csv.DictWriter(f, fieldnames=csv_headers)
            writer.writeheader()
            writer.writerows(sorted_data)
        # 2. 保存为Markdown文件（观影清单）
        with open('douban_top250.md', 'w', encoding='utf-8') as f:
            f.write('# 豆瓣电影Top250 完整观影清单\n\n')
            f.write(f'爬取时间：{time.strftime("%Y-%m-%d %H:%M:%S")}\n\n')
            for movie in sorted_data:
                f.write(f"## 第{movie['排名']}名：{movie['中文名称']}\n")
                if movie['外文名称']:
                    f.write(f"**外文名称**：{movie['外文名称']}\n\n")
                f.write(f"**豆瓣评分**：{movie['豆瓣评分']}（{movie['评分人数']}人评价）\n")
                f.write(f"**导演**：{movie['导演']} | **主演**：{movie['主演']}\n")
                f.write(f"**上映年份**：{movie['上映年份']} | **制片国家/地区**：{movie['制片国家/地区']} | **类型**：{movie['类型']}\n\n")
                f.write(f"> {movie['简介']}\n\n")
                f.write(f"[查看详情]({movie['详情链接']})\n")
                f.write('---\n\n')
        print(f"数据保存完成！共爬取{len(sorted_data)}部电影数据")
        print(f"CSV文件：douban_top250.csv")
        print(f"Markdown文件：douban_top250.md")

    def run(self):
        """执行爬虫主流程"""
        print("开始爬取豆瓣电影Top250数据...")
        # 分页爬取（共10页，每页25部）
        for offset in range(0, 250, 25):
            print(f"\n正在爬取第{offset//25 + 1}页（偏移量：{offset}）...")
            html = self.get_page(offset)
            self.parse_page(html)
        # 保存数据
        self.save_data()
        print("\n爬虫执行完毕！")

if __name__ == '__main__':
    # 实例化并运行爬虫
    crawler = DoubanTop250Crawler()
    crawler.run()

开始爬取豆瓣电影Top250数据...
正在爬取第1页（偏移量：0）...
已爬取：第1名 - 肖申克的救赎（9.7分）
已爬取：第2名 - 霸王别姬（9.6分）
已爬取：第3名 - 阿甘正传（9.5分）
...
正在爬取第2页（偏移量：25）...
已爬取：第26名 - 楚门的世界（9.4分）
已爬取：第27名 - 教父2（9.3分）
...
正在爬取第10页（偏移量：225）...
已爬取：第250名 - 终结者2：审判日（8.8分）
...
数据保存完成！共爬取250部电影数据
CSV文件：douban_top250.csv
Markdown文件：douban_top250.md
爬虫执行完毕！

排名	中文名称	外文名称	豆瓣评分	评分人数	导演	主演	上映年份	制片国家/地区	类型	简介	详情链接
1	肖申克的救赎	The Shawshank Redemption	9.7	265 万人	弗兰克・德拉邦特	蒂姆・罗宾斯、摩根・弗里曼	1994	美国	剧情、犯罪	希望让人自由	https://movie.douban.com/subject/1292052/
2	霸王别姬	Farewell My Concubine	9.6	210 万人	陈凯歌	张国荣、张丰毅、巩俐	1993	中国大陆、中国香港	剧情、音乐、历史	风华绝代	https://movie.douban.com/subject/1291546/
3	阿甘正传	Forrest Gump	9.5	200 万人	罗伯特・泽米吉斯	汤姆・汉克斯、罗宾・怀特	1994	美国	剧情、爱情	人生就像一盒巧克力，你永远不知道下一颗是什么味道	https://movie.douban.com/subject/1292720/

# 豆瓣电影Top250 完整观影清单

爬取时间：2026-01-14 16:30:20

## 第1名：肖申克的救赎

**外文名称**：The Shawshank Redemption

**豆瓣评分**：9.7（265万人评价）

**导演**：弗兰克·德拉邦特 | **主演**：蒂姆·罗宾斯、摩根·弗里曼

**上映年份**：1994 | **制片国家/地区**：美国 | **类型**：剧情、犯罪

> 希望让人自由

[查看详情](https://movie.douban.com/subject/1292052/)

---

## 第2名：霸王别姬

**外文名称**：Farewell My Concubine

**豆瓣评分**：9.6（210万人评价）

**导演**：陈凯歌 | **主演**：张国荣、张丰毅、巩俐

**上映年份**：1993 | **制片国家/地区**：中国大陆、中国香港 | **类型**：剧情、音乐、历史

> 风华绝代

[查看详情](https://movie.douban.com/subject/1291546/)

---

Python 爬虫实战：爬取豆瓣电影 Top250 数据

前言

摘要

一、环境准备

1.1 所需 Python 库

1.2 库的安装

二、爬虫核心原理

2.1 豆瓣电影 Top250 页面结构分析

更多推荐文章

相关免费在线工具

2.2 反爬策略规避

2.3 数据清洗逻辑

三、完整代码实现

四、代码解析

4.1 核心类结构

4.2 关键技术点

五、输出结果展示

5.1 控制台输出

5.2 CSV 文件输出（部分数据）

5.3 Markdown 文件输出（片段）

六、注意事项与优化建议

6.1 合规性说明

6.2 优化方向

七、常见问题解决

7.1 请求返回 403 Forbidden

7.2 数据解析不完整

7.3 CSV 文件中文乱码

总结

更多推荐文章

相关免费在线工具

Python 爬虫实战：爬取豆瓣电影 Top250 数据

前言

摘要

一、环境准备

1.1 所需 Python 库

1.2 库的安装

二、爬虫核心原理

2.1 豆瓣电影 Top250 页面结构分析

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 反爬策略规避

2.3 数据清洗逻辑

三、完整代码实现

四、代码解析

4.1 核心类结构

4.2 关键技术点

五、输出结果展示

5.1 控制台输出

5.2 CSV 文件输出（部分数据）

5.3 Markdown 文件输出（片段）

六、注意事项与优化建议

6.1 合规性说明

6.2 优化方向

七、常见问题解决

7.1 请求返回 403 Forbidden

7.2 数据解析不完整

7.3 CSV 文件中文乱码

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具