Python 爬虫实战：爬取酷狗音乐热门歌曲榜单 | 极客日志

Python算法

Python 爬虫实战：爬取酷狗音乐热门歌曲榜单

介绍使用 Python 爬取酷狗音乐热门歌曲榜单的方法。通过分析接口返回的 HTML 嵌套 JSON 数据，利用 requests 发送请求，提取排名、歌名、歌手、播放量等信息。代码包含反爬策略规避（随机 UA、时间戳）、数据解析及 CSV/TXT 存储功能，适合初学者学习网络爬虫核心逻辑与数据处理流程。

花里胡哨发布于 2026/3/23更新于 2026/5/2011K 浏览

前言

酷狗音乐作为国内主流的音乐平台之一，其热门歌曲榜单汇聚了当下最受用户欢迎的音乐作品，包含歌曲名称、歌手、播放量、评分等丰富信息。掌握酷狗音乐热门榜单的爬取方法，既能帮助音乐爱好者整理心仪的歌曲列表，也能为音乐数据分析提供基础数据源。本文将详细讲解如何使用 Python 爬取酷狗音乐热门歌曲榜单数据，涵盖接口分析、数据请求、JSON 解析、数据存储等核心环节，代码规范可直接运行，适合爬虫初学者系统学习。

摘要

本文以酷狗音乐 TOP500 热门榜单页面（https://www.kugou.com/yy/rank/home/1-8888.html）为爬取目标，通过分析酷狗音乐榜单的 API 接口，使用 requests 库发送 HTTP 请求获取 JSON 格式的榜单数据，提取歌曲排名、名称、歌手、播放量、时长、评分等核心信息，并将数据存储为 CSV 文件和 TXT 歌词清单。文中包含完整可运行的代码、详细的代码解析、输出结果及核心原理说明，帮助读者掌握音乐平台数据爬取的核心思路。

一、环境准备

1.1 所需 Python 库

爬取酷狗音乐热门榜单需要用到以下核心库，各库的作用如下表所示：

库名称	版本建议	核心作用
requests	2.31.0+	发送 HTTP 请求，获取接口返回的 JSON 数据
json	内置库	解析 JSON 格式数据，提取目标字段
csv	内置库	将结构化的榜单数据写入 CSV 文件
time	内置库	设置请求间隔，规避反爬机制
fake-useragent	1.4.0+	生成随机 User-Agent，模拟浏览器请求
re	内置库	正则表达式清洗数据，提取纯文本信息

1.2 库的安装

打开终端 / 命令提示符，执行以下命令安装所需库：

pip install requests fake-useragent

二、爬虫核心原理

2.1 酷狗音乐榜单接口分析

酷狗音乐热门榜单页面采用前后端分离架构，核心榜单数据通过 AJAX 请求从后端 API 接口获取。通过浏览器开发者工具（F12→Network→XHR）可定位到榜单数据接口：

核心接口：https://www.kugou.com/yy/rank/home/{page}-8888.html?rnd={时间戳}
关键参数：
- page：榜单分页参数（每页展示 22 首歌曲，TOP500 共 23 页）；
- rnd：随机时间戳，用于规避静态请求识别；
- 接口返回数据为 HTML 嵌套 JSON 格式，需先提取 JSON 字符串再解析。

2.2 数据解析逻辑

酷狗音乐榜单接口返回的 HTML 中，包含一个 var rankData = { ... } 格式的 JSON 数据块，核心字段映射如下：

JSON 字段	含义

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

import requests
import json
import csv
import time
import re
import random
from fake_useragent import UserAgent
from requests.exceptions import RequestException

class KugouMusicCrawler:
    def __init__(self, max_page=5):
        """
        初始化酷狗音乐热门榜单爬虫
        :param max_page: 最大爬取页数（每页 22 首，默认爬取前 5 页）
        """
        # 初始化请求头
        self.ua = UserAgent()
        self.headers = {
            'User-Agent': self.ua.random,
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
            'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
            'Referer': 'https://www.kugou.com/',
            'Connection': 'keep-alive',
            'Upgrade-Insecure-Requests': '1'
        }
        # 核心配置
        self.max_page = max_page
        self.base_url = 'https://www.kugou.com/yy/rank/home/{page}-8888.html'
        self.song_data = []  # 存储爬取的歌曲数据

    def extract_json(self, html):
        """从 HTML 中提取榜单 JSON 数据"""
        try:
            # 使用正则表达式匹配 rankData 对应的 JSON 字符串
            pattern = re.compile(r'var rankData = (.*?);\s*</script>')
            match = pattern.search(html)
            if match:
                json_str = match.group(1)
                # 修复 JSON 格式中的特殊字符
                json_str = json_str.replace('\n', '').replace('\r', '').replace('\t', '')
                return json.loads(json_str)
            return None
        except Exception as e:
            print(f"提取 JSON 数据失败：{e}")
            return None

    def get_rank_page(self, page):
        """爬取指定页数的榜单数据"""
        # 构造请求 URL 和参数
        url = self.base_url.format(page=page)
        params = {
            'rnd': int(time.time() * 1000),  # 时间戳参数
            'json': 'true'
        }
        try:
            # 设置随机请求间隔（1-3 秒）
            time.sleep(random.uniform(1, 3))
            response = requests.get(
                url=url,
                headers=self.headers,
                params=params,
                timeout=15
            )
            # 验证响应状态
            response.raise_for_status()
            # 设置正确编码
            response.encoding = 'utf-8'
            return response.text
        except RequestException as e:
            print(f"第{page}页请求失败：{e}")
            return None

    def parse_rank_data(self, json_data):
        """解析 JSON 数据，提取歌曲核心信息"""
        if not json_data or 'data' not in json_data:
            print("无有效榜单数据")
            return
        # 遍历榜单歌曲
        for song in json_data['data']:
            try:
                # 提取核心字段，添加默认值避免 KeyError
                song_info = {
                    '排名': song.get('rank', 0),
                    '歌曲名称': song.get('songname', '未知歌曲'),
                    '歌手': song.get('singername', '未知歌手'),
                    '播放量': song.get('play_count', '0'),
                    '评分': song.get('score', 0),
                    '时长': song.get('duration', '00:00'),
                    '歌曲 Hash': song.get('hash', ''),
                    '播放链接': f"https://www.kugou.com/song/#hash={song.get('hash', '')}"
                }
                self.song_data.append(song_info)
                print(f"已爬取：第{song_info['排名']}名 - {song_info['歌曲名称']} - {song_info['歌手']}")
            except Exception as e:
                print(f"解析单首歌曲失败：{e}")
                continue

    def save_data(self):
        """保存榜单数据到 CSV 和 TXT 文件"""
        if not self.song_data:
            print("无数据可保存")
            return
        # 1. 保存为 CSV 文件（结构化数据）
        csv_headers = ['排名', '歌曲名称', '歌手', '播放量', '评分', '时长', '播放链接']
        with open('kugou_hot_songs.csv', 'w', encoding='utf-8-sig') as f:
            writer = csv.DictWriter(f, fieldnames=csv_headers)
            writer.writeheader()
            # 按排名排序后写入
            sorted_data = sorted(self.song_data, key=lambda x: x['排名'])
            writer.writerows(sorted_data)
        # 2. 保存为 TXT 文件（歌词清单格式）
        with open('kugou_hot_songs.txt', 'w', encoding='utf-8') as f:
            f.write('酷狗音乐热门歌曲榜单\n')
            f.write('=' * 50 + '\n\n')
            for song in sorted_data:
                f.write(f"【第{song['排名']}名】{song['歌曲名称']} - {song['歌手']}\n")
                f.write(f"播放量：{song['播放量']} | 评分：{song['评分']} | 时长：{song['时长']}\n")
                f.write(f"播放链接：{song['播放链接']}\n")
                f.write('-' * 30 + '\n')
        print(f"数据保存完成！共爬取{len(self.song_data)}首热门歌曲")
        print(f"CSV 文件：kugou_hot_songs.csv")
        print(f"TXT 文件：kugou_hot_songs.txt")

    def run(self):
        """执行爬虫主流程"""
        print("开始爬取酷狗音乐热门歌曲榜单...")
        # 分页爬取榜单数据
        for page in range(1, self.max_page + 1):
            print(f"\n正在爬取第{page}页榜单...")
            html = self.get_rank_page(page)
            if not html:
                continue
            # 提取并解析 JSON 数据
            json_data = self.extract_json(html)
            self.parse_rank_data(json_data)
        # 保存数据
        self.save_data()
        print("\n爬虫执行完毕！")

if __name__ == '__main__':
    # 实例化爬虫，爬取前 5 页（约 110 首歌曲），可根据需求调整 max_page
    crawler = KugouMusicCrawler(max_page=5)
    crawler.run()

开始爬取酷狗音乐热门歌曲榜单...
正在爬取第 1 页榜单...
已爬取：第 1 名 - 花开忘忧 - 周深
已爬取：第 2 名 - 字字句句 - 张碧晨
已爬取：第 3 名 - 罗刹海市 - 刀郎 ...
正在爬取第 2 页榜单...
已爬取：第 23 名 - 孤勇者 - 陈奕迅
已爬取：第 24 名 - 如愿 - 王菲 ...
正在爬取第 5 页榜单...
已爬取：第 101 名 - 七里香 - 周杰伦 ...
数据保存完成！共爬取 110 首热门歌曲
CSV 文件：kugou_hot_songs.csv
TXT 文件：kugou_hot_songs.txt
爬虫执行完毕！

排名	歌曲名称	歌手	播放量	评分	时长	播放链接
1	花开忘忧	周深	12.5 亿	9.8	04:02	https://www.kugou.com/song/#hash=123456789abcdef
2	字字句句	张碧晨	10.8 亿	9.7	03:58	https://www.kugou.com/song/#hash=987654321fedcba
3	罗刹海市	刀郎	9.6 亿	9.6	05:30	https://www.kugou.com/song/#hash=abcdef123456789
23	孤勇者	陈奕迅	8.2 亿	9.9	04:16	https://www.kugou.com/song/#hash=fedcba987654321

酷狗音乐热门歌曲榜单
==================================================
【第 1 名】花开忘忧 - 周深
播放量：12.5 亿 | 评分：9.8 | 时长：04:02
播放链接：https://www.kugou.com/song/#hash=123456789abcdef
------------------------------
【第 2 名】字字句句 - 张碧晨
播放量：10.8 亿 | 评分：9.7 | 时长：03:58
播放链接：https://www.kugou.com/song/#hash=987654321fedcba
------------------------------
【第 3 名】罗刹海市 - 刀郎
播放量：9.6 亿 | 评分：9.6 | 时长：05:30
播放链接：https://www.kugou.com/song/#hash=abcdef123456789
------------------------------

rank	歌曲排名	`song['rank']`
songname	歌曲名称	`song['songname']`
singerName	歌手名称	`song['singername']`
play_count	播放量	`song['play_count']`
score	歌曲评分	`song['score']`
duration	歌曲时长	`song['duration']`
hash	歌曲唯一标识（可用于拼接播放链接）	`song['hash']`

Python 爬虫实战：爬取酷狗音乐热门歌曲榜单

前言

摘要

一、环境准备

1.1 所需 Python 库

1.2 库的安装

二、爬虫核心原理

2.1 酷狗音乐榜单接口分析

2.2 数据解析逻辑

更多推荐文章

相关免费在线工具

2.3 反爬策略规避

三、完整代码实现

四、代码解析

4.1 核心类结构

4.2 关键技术点

五、输出结果展示

5.1 控制台输出

5.2 CSV 文件输出（部分数据）

5.3 TXT 文件输出（片段）

六、注意事项与优化建议

6.1 合规性说明

6.2 优化方向

七、常见问题解决

7.1 JSON 提取失败

7.2 请求返回 403 Forbidden

7.3 数据乱码

总结

更多推荐文章

相关免费在线工具

Python 爬虫实战：爬取酷狗音乐热门歌曲榜单

前言

摘要

一、环境准备

1.1 所需 Python 库

1.2 库的安装

二、爬虫核心原理

2.1 酷狗音乐榜单接口分析

2.2 数据解析逻辑

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.3 反爬策略规避

三、完整代码实现

四、代码解析

4.1 核心类结构

4.2 关键技术点

五、输出结果展示

5.1 控制台输出

5.2 CSV 文件输出（部分数据）

5.3 TXT 文件输出（片段）

六、注意事项与优化建议

6.1 合规性说明

6.2 优化方向

七、常见问题解决

7.1 JSON 提取失败

7.2 请求返回 403 Forbidden

7.3 数据乱码

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具