Python 结合代理接口实现音乐数据自动化采集实战

一、前言

最近想做个每日推荐歌单存档小工具，每天自动获取推荐歌曲并存成 Excel。结果刚跑了几天，代码就报网络异常，手动访问发现被平台限制了：刷新几次就会跳验证，根本拿不到数据。

一开始试过免费代理池，要么失效快，要么速度慢，同步成功率很低；后来手动切热点，每天要盯着程序有没有断，完全背离了自动化的初衷。直到尝试使用住宅级代理接口，模拟正常用户访问，才真正解决了这个问题。

二、技术选型与认识

为什么选择代理接口方案？主要基于以下三点考虑：

地域覆盖：很多榜单只有中美欧资源，小语种地区很难获取。好的代理服务商通常覆盖全球 200+ 国家/地区，能匹配当地本地 IP，响应速度更快。
自动轮转：手动切换太费时间，支持失效自动切换的接口更省心。设置响应延迟阈值后，基本无需人工干预，稳定性大幅提升。
场景适配：针对特定业务（如音乐平台）选择合适的代理池，能有效降低反爬拦截率。

实际使用中，数据传输速度稳定，较少出现延迟或连接中断的情况。隐私保护方面，住宅级真实 IP 的请求头与正常浏览器访问无异，安全性更高。

三、从 0 到 1 的完整流程

很多新手担心「代理配置太复杂」，其实跟着步骤走很快就能搞定。

第一步：注册与认证

在服务商官网完成注册，建议进行身份验证以解锁更高的并发请求管理等高级功能。认证流程通常比较简单，上传相关资料即可。

第二步：选择套餐

在后台查看动态住宅、静态住宅等多种服务类型。如果有明确需求直接选择对应套餐；如果不确定用量，可以先充值按需消费。部分服务商还提供定制方案。

第三步：获取并配置代理

认证通过后，在「获取代理」中选择 API 模式，根据需求设置 IP 数量、国家、城市等参数，生成专属链接。

注意：务必将使用设备的公网 IP 添加到白名单才能正常使用，不要填局域网 IP（如 192.168.x.x），否则会导致不可用。

复制生成的链接后，在浏览器中请求，就能获取到可用的资源和端口，接下来就可以应用到代码中了。

四、实战体验

为了测试效果，我尝试用 Python 配合代理接口进行数据采集，目标是提取某云音乐的每日推荐歌曲信息，并保存到 Excel 中。

完整的采集代码整理如下，已添加详细注释和异常处理，新手直接改参数即可运行。

1. 导入必要的库

import requests
import json
from openpyxl import Workbook
from datetime import datetime
import time
import os

2. 通过 API 链接获取资源

def get_music_recommendations_with_proxy():
    proxy_api_url = "这里填写获取的 API 专属连接"
    print("正在获取代理资源...")
    try:
        response = requests.get(proxy_api_url, timeout=10)
        if response.status_code == 200:
            ip_list = response.text.strip().split('\n')
            if ip_list and ip_list[0].strip():
                proxy_ip = ip_list[0].strip()
                print(f"成功获取：{proxy_ip}")
                return proxy_ip
            else:
                print("返回的列表为空")
                return None
        else:
            print(f"获取失败，状态码：{response.status_code}")
            return None
    except Exception as e:
        print(f"连接代理 API 失败：{e}")
        return None

注：对返回结果进行多重验证，确保获取的有效使用 try-except 结构处理可能的网络异常。

3. 配置代理参数和请求头

# 设置代理
proxies = {
    'http': f'http://{proxy_ip}',
    'https': f'http://{proxy_ip}'
}

# 音乐 API 配置
netease_url = 'https://music.163.com/api/v3/discovery/recommend/songs'

# Cookie 配置
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
    'Referer': 'https://music.163.com/',
    'Origin': 'https://music.163.com',
    'Accept': 'application/json, text/plain, */*',
    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
    'Content-Type': 'application/x-www-form-urlencoded',
    'Cookie': '您的 Cookie 信息...'
}

4. Excel 文件初始化

# 创建 Excel 工作簿
wb = Workbook()
ws = wb.active
ws.title = "每日推荐歌曲"

# 设置工作表头
ws.append(['序号', '歌曲名称', '歌手', '专辑', '歌曲 ID', '时长', '播放链接'])

5. 发送请求与处理数据

try:
    response = requests.get(netease_url, headers=headers, proxies=proxies, timeout=15)
    print(f"响应状态码：{response.status_code}")
    
    if response.status_code == 200:
        data = response.json()
        print(f"返回代码：{data.get('code')}")
        
        if data.get('code') == 200:
            songs = data['data']['dailySongs']
            print(f"成功获取到 {len(songs)} 首每日推荐歌曲")
            
            for index, song in enumerate(songs, 1):
                song_name = song['name']
                artists = "、".join([artist['name'] for artist in song['ar']])
                album = song['al']['name']
                song_id = song['id']
                duration_ms = song['dt']
                duration = f"{duration_ms // 60000}:{str(duration_ms % 60000 // 1000).zfill(2)}"
                play_url = f"https://music.163.com/song?id={song_id}"
                
                # 控制台输出
                print(f"{index:2d}. {song_name} - {artists}")
                
                # 写入 Excel
                ws.append([index, song_name, artists, album, song_id, duration, play_url])
except Exception as e:
    print(f"发生错误：{e}")

6. 文件保存与异常处理

# 保存 Excel 文件到桌面
if os.name == 'nt':
    desktop_path = os.path.join(os.path.expanduser("~"), "Desktop")
else:
    desktop_path = os.path.join(os.path.expanduser("~"), "Desktop")

if not os.path.exists(desktop_path):
    desktop_path = os.path.expanduser("~")

timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
filename = f'每日推荐_{timestamp}.xlsx'
file_path = os.path.join(desktop_path, filename)

wb.save(file_path)
print(f"数据已保存到桌面：{file_path}")
print("完成数据获取！")
return True

7. 程序主入口

if __name__ == "__main__":
    print("=" * 60)
    print("音乐每日推荐歌曲提取")
    print("=" * 60)
    proxy_ip = get_music_recommendations_with_proxy()
    if proxy_ip:
        success = True
        # 此处调用上述数据处理逻辑
        print("\n任务完成！请查看桌面上的 Excel 文件")
    else:
        print("\n任务失败，请检查网络或服务状态")

五、应用场景拓展

本次实战的音乐采集只是基础应用，这种架构还可以帮助解决更多问题：

数据驱动决策与市场研究：高效采集公开数据，包括网页数据采集、市场调查、行业信息跟进等，为企业战略决策提供精准的数据支撑。
电子商务竞争与数字化营销：监控平台价格、排名；通过本地化广告验证和 SEO 优化，助力企业提升营销效果与市场竞争力。
品牌保护与舆情风险管理：全天候监控，有效发现侵权内容、监测舆情动态，帮助企业及时维护品牌形象与价值。
技术运维与安全验证：借助网络资源，协助测试网站在不同地域的性能稳定性。

六、总结与建议

总结一下适配人群和注意点：

适合人群：有合法数据采集需求（如个人项目、企业调研）、需要稳定 IP、不想花时间折腾代理的人。尤其新手，不用懂底层原理，按步骤配置就能用。
避坑提醒：一定要遵守平台规则！不可做非法采集。
注意事项：工具只是辅助，合法合规的采集习惯才是最重要的。合理控制请求频率，避免对目标服务器造成压力。

如果遇到 IP 被限制、采集不稳定等问题，可以尝试引入代理接口方案，但请务必关注服务的稳定性和合规性。