Python 爬虫实战：抓取今日头条热榜 TOP50 数据 | 极客日志

Python算法

Python 爬虫实战：抓取今日头条热榜 TOP50 数据

介绍如何使用 Python 的 requests、re 和 pandas 库，通过逆向分析今日头条热榜接口，获取排名、标题、热度值、标签及分类等核心数据，并保存为 CSV 文件。重点讲解了请求头设置、JSON 数据解析、URL 正则处理及数据清洗流程。

狂少发布于 2025/2/6更新于 2026/7/2242 浏览

一、爬取目标

本期分享一个爬虫案例，目标是爬取今日头条热榜的榜单数据。打开首页，在页面右侧会看到头条热榜。需要爬取以下 6 个关键字段：

热榜排名
热榜标题
热度值
热榜标签
热榜分类
热榜链接

二、技术实现

1. 环境准备

导入需要用到的库：

import requests
import pandas as pd
import re

2. 请求设置

定义请求头（User-Agent）：

h1 = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/15.4 Safari/605.1.15',
}

定义请求地址：

url = 'https://www.toutiao.com/hot-event/hot-board/?origin=toutiao_pc'

3. 数据获取与解析

使用 requests 发送请求并接收 JSON 数据：

response = requests.get(url, headers=h1)
print(response.status_code)
json_data = response.json()

初始化列表用于存放数据：

title_list = []
value_list = []
url_list = []
category_list = []
label_list = []

遍历数据提取字段：

data_num = len(json_data['data'])
for i, data in enumerate(json_data['data']):
    # 热榜排名
    rank = i + 1
    
    # 热榜标题
    title = data['Title']
    title_list.append(title)
    
    # 热度值
    value = data['Value']
    value_list.append(value)
    
    # 热榜分类
    category = data['Category']
    category_list.append(category)
    
    # 热榜标签
    label = data[]
    label_list.append(label)
    
    
    raw_url = data[]
    
     = re.search(, raw_url)
     :
        url_id = .group()
        final_url =  + (url_id)
        url_list.append(final_url)
    :
        url_list.append(raw_url)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

df = pd.DataFrame({
    '热榜排名': range(1, data_num + 1),
    '热榜标题': title_list,
    '热度值': value_list,
    '热榜标签': label_list,
    '热榜分类': category_list,
    '热榜链接': url_list,
})

result_file = 'toutiao_hotlist.csv'
df.to_csv(result_file, header=True, index=False, encoding='utf_8_sig')

Python 爬虫实战：抓取今日头条热榜 TOP50 数据

一、爬取目标

二、技术实现

1. 环境准备

2. 请求设置

3. 数据获取与解析

更多推荐文章

相关免费在线工具

4. 数据保存

三、总结

更多推荐文章

相关免费在线工具

Python 爬虫实战：抓取今日头条热榜 TOP50 数据

一、爬取目标

二、技术实现

1. 环境准备

2. 请求设置

3. 数据获取与解析

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4. 数据保存

三、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具