携程景区评论数据爬取：Python 实战解析

基于 Python requests 库模拟网络请求，定位携程景区评论接口。通过 F12 开发者工具分析参数，构建 headers 和 cookies 完成数据获取。结合 pandas 进行数据清洗与存储，支持分页抓取及多维度统计（评分、游客类型、地区分布）。代码包含完整的数据提取、分析及文件保存逻辑，适用于学习 Web 爬虫及数据分析流程。

蜜桃汽水发布于 2026/3/23更新于 2026/5/75 浏览

一、前言

本文演示如何使用 Python 抓取携程景区的评论数据。通过逆向分析接口参数，结合 requests 库模拟请求，最终实现数据的获取、清洗与存储。

二、网络请求分析

定位接口 打开携程景区详情页（例如哈尔滨冰雪大世界），按 F12 打开开发者工具。点击'下一页'或滚动页面，观察 Network 面板中的请求变化。通常动态更新的数据会通过 POST 请求调用后端接口，而静态页面则是 GET 请求。

通过搜索评论内容关键字，可以定位到核心接口 getCommentCollapseList。

文章配图

提取参数 在请求详情中查看 Request Headers 和 Payload。重点关注 Cookie 中的身份标识（如 GUID, UBT_VID）以及 JSON 参数中的分页信息（pageIndex, pageSize）。如果不确定如何构造请求，可以使用浏览器右键复制为 cURL (bash)，然后通过 curlconverter.com 转换为 Python 代码作为参考。

文章配图

三、代码实现

1. 基础请求封装

首先构建一个函数来模拟发送请求。注意，Cookie 和 Token 具有时效性，实际运行时可能需要定期刷新。

import requests

def crawl_comment(page_index=1):
    """
    模拟携程景区评论接口请求
    :param page_index: 页码，从 1 开始
    """
    cookies = {
        'GUID': 'YOUR_GUID_HERE', 
        'MKT_CKID': 'YOUR_MKT_CKID_HERE',
        # ... 其他必要的 Cookie 字段 ...
        '_RF1': 'YOUR_IP_ADDRESS',
        'UBT_VID': 'YOUR_UBT_VID',
        # 请根据实际浏览器环境替换以下敏感信息
        'cticket': 'YOUR_CTICKET',
        'login_uid': 'YOUR_LOGIN_UID'
    }
    
    headers = {
        : ,
        : ,
        : ,
        : ,
        : ,
        : ,
        : ,
        : ,
        : ,
        : ,
        : ,
        : 
    }
    
    params = {
        : ,
        : 
    }
    
    json_data = {
        : {
            : ,
            : ,
            : ,
            : page_index,  
            : ,           
            : ,           
            : ,
            : ,
            : 
        },
        : {
            : ,
            : ,
            : ,
            : ,
            : ,
            : 
        }
    }
    
    url = 
    response = requests.post(url, params=params, cookies=cookies, headers=headers, json=json_data)
     response.json()

一、前言

本文演示如何使用 Python 抓取携程景区的评论数据。通过逆向分析接口参数，结合 requests 库模拟请求，最终实现数据的获取、清洗与存储。

二、网络请求分析

定位接口 打开携程景区详情页（例如哈尔滨冰雪大世界），按 F12 打开开发者工具。点击'下一页'或滚动页面，观察 Network 面板中的请求变化。通常动态更新的数据会通过 POST 请求调用后端接口，而静态页面则是 GET 请求。

通过搜索评论内容关键字，可以定位到核心接口 getCommentCollapseList。

文章配图

提取参数 在请求详情中查看 Request Headers 和 Payload。重点关注 Cookie 中的身份标识（如 GUID, UBT_VID）以及 JSON 参数中的分页信息（pageIndex, pageSize）。如果不确定如何构造请求，可以使用浏览器右键复制为 cURL (bash)，然后通过 curlconverter.com 转换为 Python 代码作为参考。

文章配图

三、代码实现

1. 基础请求封装

首先构建一个函数来模拟发送请求。注意，Cookie 和 Token 具有时效性，实际运行时可能需要定期刷新。

import requests

def crawl_comment(page_index=1):
    """
    模拟携程景区评论接口请求
    :param page_index: 页码，从 1 开始
    """
    cookies = {
        'GUID': 'YOUR_GUID_HERE', 
        'MKT_CKID': 'YOUR_MKT_CKID_HERE',
        # ... 其他必要的 Cookie 字段 ...
        '_RF1': 'YOUR_IP_ADDRESS',
        'UBT_VID': 'YOUR_UBT_VID',
        # 请根据实际浏览器环境替换以下敏感信息
        'cticket': 'YOUR_CTICKET',
        'login_uid': 'YOUR_LOGIN_UID'
    }
    
    headers = {
        : ,
        : ,
        : ,
        : ,
        : ,
        : ,
        : ,
        : ,
        : ,
        : ,
        : ,
        : 
    }
    
    params = {
        : ,
        : 
    }
    
    json_data = {
        : {
            : ,
            : ,
            : ,
            : page_index,  
            : ,           
            : ,           
            : ,
            : ,
            : 
        },
        : {
            : ,
            : ,
            : ,
            : ,
            : ,
            : 
        }
    }
    
    url = 
    response = requests.post(url, params=params, cookies=cookies, headers=headers, json=json_data)
     response.json()

import json import pandas as pd from datetime import datetime def format_timestamp(timestamp_str): """格式化时间戳 /Date(1742347091000+0800)/ -> YYYY-MM-DD HH:MM:SS""" if not timestamp_str: return '' try: if timestamp_str.startswith('/Date('): millis = int(timestamp_str.replace('/Date(', '').replace(')/', '').split('+')[0]) dt = datetime.fromtimestamp(millis / 1000) return dt.strftime('%Y-%m-%d %H:%M:%S') except: pass return timestamp_str def extract_comments(json_data): """从 API 返回中提取评论列表""" comments = [] if 'result' in json_data and 'items' in json_data['result']: for item in json_data['result']['items']: comment_info = { 'comment_id': item.get('commentId'), 'user_nick': item.get('userInfo', {}).get('userNick', ''), 'score': item.get('score', 0), 'content': item.get('content', ''), 'publish_time': format_timestamp(item.get('publishTime', '')), 'tourist_type': {0: '个人游', 1: '情侣夫妻', 2: '家庭亲子', 3: '朋友出游', 4: '商务出差', 5: '独自旅行'}.get(item.get('touristType', 0), '其他'), 'ip_location': item.get('ipLocatedName', ''), 'useful_count': item.get('usefulCount', 0), 'reply_count': item.get('replyCount', 0), 'image_count': len(item.get('images', [])) } comments.append(comment_info) return comments def save_data(comments, filename='comments'): """保存数据到 CSV 和 TXT""" df = pd.DataFrame(comments) df.to_csv(f'{filename}.csv', index=False, encoding='utf-8-sig') with open(f'{filename}.txt', 'w', encoding='utf-8') as f: f.write(f"共抓取 {len(comments)} 条评论\n") for i, c in enumerate(comments[:5], 1): # 仅预览前 5 条 f.write(f"[{i}] {c['user_nick']} ({c['score']}分): {c['content'][:50]}...\n") print(f"数据已保存至 {filename}.csv") # 主流程示例 if __name__ == '__main__': all_comments = [] # 循环抓取多页，例如抓取前 3 页 for page in range(1, 4): data = crawl_comment(page_index=page) comments = extract_comments(data) all_comments.extend(comments) print(f"第{page}页完成，获取 {len(comments)} 条") save_data(all_comments, 'harbin_reviews')

携程景区评论数据爬取：Python 实战解析

一、前言

二、网络请求分析

三、代码实现

1. 基础请求封装

携程景区评论数据爬取：Python 实战解析

一、前言

二、网络请求分析

三、代码实现

1. 基础请求封装

更多推荐文章

相关免费在线工具

2. 数据解析与存储

四、注意事项

更多推荐文章

相关免费在线工具

携程景区评论数据爬取：Python 实战解析

一、前言

二、网络请求分析

三、代码实现

1. 基础请求封装

携程景区评论数据爬取：Python 实战解析

一、前言

二、网络请求分析

三、代码实现

1. 基础请求封装

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 数据解析与存储

四、注意事项

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具