Python 爬虫实战：爬取飞猪旅行酒店套餐信息

使用 Python 结合 requests 和 jsonpath 库抓取飞猪旅行酒店套餐信息的实战方案。通过浏览器开发者工具分析 AJAX 接口，提取 itemId 构造请求参数，模拟合法请求头规避反爬机制。代码实现了数据解析、去重及 CSV 导出功能，并提供了签名校验、代理池集成等进阶优化建议，适用于旅游价格分析与个人学习研究。

CloudNative发布于 2026/3/23更新于 2026/4/1627K 浏览

前言

飞猪旅行作为阿里旗下的在线旅游平台，其酒店套餐产品融合了价格、房型、权益、有效期等多维度信息，是旅游消费决策与行业价格分析的重要数据源。飞猪页面采用前后端分离架构，核心数据通过 AJAX 接口动态加载，且具备完善的反爬机制（如签名验证、Token 校验）。本文将从实战角度，讲解基于 requests+jsonpath 的飞猪酒店套餐数据抓取方案，重点拆解接口分析、参数构造、反爬规避等核心环节，实现酒店套餐信息的高效采集。

摘要

本文以飞猪旅行酒店套餐信息抓取为核心场景，深度解析飞猪动态接口的请求逻辑，通过分析网络请求、构造合法请求参数、解析 JSON 响应数据，实现酒店套餐价格、房型、权益等核心信息的抓取。实战目标网页示例：飞猪酒店套餐示例页 - 三亚亚特兰蒂斯酒店（可替换为任意飞猪酒店套餐 URL）。

一、爬虫开发前置知识

1.1 核心原理

飞猪酒店套餐数据加载逻辑：

前端页面仅渲染基础框架，套餐列表、价格、权益等核心数据通过调用 AJAX 接口（JSON 格式）动态加载；
接口请求需携带必要参数（如商品 ID、时间戳、签名等），部分参数需从页面源码中提取；
反爬机制包括：Referer 验证、User-Agent 白名单、接口签名校验、IP 频率限制。

核心解决思路：

借助浏览器开发者工具分析套餐数据对应的 AJAX 接口；
从套餐详情页源码中提取接口所需的核心参数（如 itemId、token）；
构造符合飞猪规范的请求头和参数，发送请求获取 JSON 数据；
解析 JSON 数据，提取套餐核心字段并结构化存储。

1.2 环境依赖

需安装的 Python 库及安装命令如下：

pip install requests jsonpath-python pandas fake-useragent python-dotenv

库名称	核心作用
requests	发送 HTTP 请求，调用 AJAX 接口
jsonpath-python	快速解析嵌套 JSON 数据，提取目标字段
pandas	套餐数据结构化存储与导出
fake-useragent	生成随机 User-Agent，规避基础反爬
python-dotenv	环境变量管理，存储敏感参数（如 Cookie）

二、实战开发流程

2.1 目标分析

以飞猪'三亚亚特兰蒂斯酒店'套餐页为例，需抓取的核心字段：

字段名称	字段说明	数据类型
hotel_name	酒店名称	字符串
package_name	套餐名称	字符串
package_price	套餐价格（元）	浮点数
original_price	套餐原价（元）	浮点数
room_type	套餐包含房型	字符串

相关免费在线工具

加密/解密文本

使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online

curl 转代码

解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

Base64 字符串编码/解码

将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

Base64 文件转换器

将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online

Markdown转HTML

将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

HTML转Markdown

将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online

import requests import re import json import time import random import pandas as pd from fake_useragent import UserAgent from jsonpath import jsonpath from urllib.parse import urlparse, parse_qs class FliggyHotelPackageCrawler: def __init__(self): # 初始化请求头 self.ua = UserAgent() self.base_headers = { 'User-Agent': self.ua.random, 'Accept': 'application/json, text/plain, */*', 'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8', 'Referer': 'https://www.fliggy.com/', 'Origin': 'https://www.fliggy.com', 'Cookie': '', # 可选：登录飞猪后复制 Cookie 粘贴此处 'X-Requested-With': 'XMLHttpRequest' } # 存储所有套餐数据的列表 self.all_package_data = [] def extract_item_id(self, package_url): """ 从套餐 URL 中提取商品 ID（itemId） :param package_url: 飞猪酒店套餐 URL :return: itemId 字符串/None """ try: # 解析 URL 参数 parsed_url = urlparse(package_url) query_params = parse_qs(parsed_url.query) if 't' in query_params: return query_params['t'][0].replace('t_', '') # 备用方案：从 URL 路径中提取 path_parts = parsed_url.path.split('/') for part in path_parts: if part.startswith('t_'): return part.replace('t_', '') # 正则匹配 id_match = re.search(r't_(\d+)', package_url) return id_match.group(1) if id_match else None except Exception as e: print(f"提取 itemId 失败：{e}") return None def get_package_detail(self, item_id): """ 调用飞猪 AJAX 接口获取套餐详情数据 :param item_id: 商品 ID :return: 套餐数据字典/None """ try: # 构造接口 URL（飞猪酒店套餐详情接口，经开发者工具分析得出） api_url = f"https://www.fliggy.com/hotel/api/item/detail?itemId={item_id}&timestamp={int(time.time() * 1000)}" # 随机延迟（3-6 秒），规避频率限制 time.sleep(random.uniform(3, 6)) # 发送 GET 请求 response = requests.get( url=api_url, headers=self.base_headers, timeout=20 ) response.raise_for_status() response.encoding = 'utf-8' # 解析 JSON 响应 json_data = response.json() if json_data.get('code') != 0: print(f"接口返回错误：{json_data.get('msg', '未知错误')}") return None # 提取核心数据 package_data = {} # 酒店名称 hotel_name = jsonpath(json_data, '$..hotelName')[0] if jsonpath(json_data, '$..hotelName') else '未知酒店' package_data['hotel_name'] = hotel_name # 套餐基础信息 package_info = jsonpath(json_data, '$..packageInfo')[0] if jsonpath(json_data, '$..packageInfo') else {} package_data['package_name'] = package_info.get('name', '未知套餐') package_data['package_price'] = float(package_info.get('price', 0)) if package_info.get('price') else 0.0 package_data['original_price'] = float(package_info.get('originalPrice', 0)) if package_info.get('originalPrice') else package_data['package_price'] # 房型信息 package_data['room_type'] = package_info.get('roomType', '未知房型') # 套餐权益（拼接多个权益） rights_list = jsonpath(json_data, '$..rights')[0] if jsonpath(json_data, '$..rights') else [] package_data['rights'] = ' | '.join(rights_list) if rights_list else '无权益' # 有效期 package_data['valid_start'] = package_info.get('validStart', '未知开始时间') package_data['valid_end'] = package_info.get('validEnd', '未知结束时间') # 链接信息 package_data['package_url'] = f"https://www.fliggy.com/hotel/t_{item_id}.htm" package_data['hotel_url'] = jsonpath(json_data, '$..hotelUrl')[0] if jsonpath(json_data, '$..hotelUrl') else '' print(f"成功抓取【{hotel_name} - {package_data['package_name']}】套餐数据") return package_data except requests.exceptions.RequestException as e: print(f"接口请求失败：{e}") return None except Exception as e: print(f"数据解析失败：{e}") return None def batch_crawl(self, package_url_list): """ 批量抓取多个酒店套餐数据 :param package_url_list: 套餐 URL 列表 """ for url in package_url_list: # 提取 itemId item_id = self.extract_item_id(url) if not item_id: print(f"无法提取{item_id}的 itemId，跳过") continue # 获取套餐详情 package_data = self.get_package_detail(item_id) if package_data: self.all_package_data.append(package_data) def save_data(self, save_path='fliggy_hotel_package.csv'): """ 保存套餐数据到 CSV 文件 :param save_path: 保存路径 """ if not self.all_package_data: print("无有效套餐数据可保存") return # 转换为 DataFrame 并去重 df = pd.DataFrame(self.all_package_data) df = df.drop_duplicates(subset=['hotel_name', 'package_name'], keep='last') # 格式化价格（保留 2 位小数） df['package_price'] = df['package_price'].apply(lambda x: round(x, 2)) df['original_price'] = df['original_price'].apply(lambda x: round(x, 2)) # 保存 CSV（utf-8-sig 解决 Excel 中文乱码） df.to_csv(save_path, index=False, encoding='utf-8-sig') print(f"酒店套餐数据已保存至：{save_path}") return df # 主程序执行 if __name__ == '__main__': # 实例化爬虫对象 crawler = FliggyHotelPackageCrawler() # 待爬取的飞猪酒店套餐 URL 列表（替换为实际链接） target_packages = [ "https://www.fliggy.com/hotel/t_10020028.htm", # 三亚亚特兰蒂斯酒店 "https://www.fliggy.com/hotel/t_10030045.htm", # 上海外滩 W 酒店 "https://www.fliggy.com/hotel/t_10040067.htm" # 杭州西湖国宾馆 ] # 批量抓取数据 crawler.batch_crawl(target_packages) # 保存数据并获取结果 DataFrame result_df = crawler.save_data() # 控制台输出抓取结果 print("\n=== 飞猪酒店套餐信息抓取结果 ===") print(result_df.to_string(index=False))

hotel_name	package_name	package_price	original_price	room_type	rights	valid_start	valid_end	package_url	hotel_url
三亚亚特兰蒂斯酒店	海景房 2 晚 + 双早 + 水世界畅玩	2588.00	3288.00	海景房	双人早餐	水世界畅玩	水族馆门票	2026-01-01	2026-06-30
上海外滩 W 酒店	奇妙城景房 1 晚 + 双人下午茶	1688.00	1988.00	奇妙城景房	双人下午茶	免费停车	延迟退房至 14 点	2026-01-01	2026-08-31

反爬类型	表现形式	解决方案
接口返回 403/500 错误	请求失败，返回非 0 状态码	1. 配置登录后的 Cookie；2. 使用高匿代理池轮换 IP；3. 调整请求头（如添加更多浏览器指纹字段）
接口返回空数据	JSON 响应无核心字段	1. 检查 itemId 是否正确；2. 验证接口 URL 是否过期（飞猪接口可能不定期更新）；3. 增加请求重试机制
签名校验拦截	接口返回'签名无效'	1. 分析前端签名生成逻辑（如 MD5 加密参数），构造签名；2. 改用 selenium 模拟前端请求（进阶方案）
IP 封禁	所有请求均失败	1. 暂停抓取 1-2 小时；2. 切换代理 IP；3. 降低抓取频率（单次延迟 10+ 秒）

Python 爬虫实战：爬取飞猪旅行酒店套餐信息

前言

摘要

一、爬虫开发前置知识

1.1 核心原理

1.2 环境依赖

二、实战开发流程

2.1 目标分析

更多推荐文章

相关免费在线工具

2.2 核心代码实现

2.3 代码输出结果示例

2.4 核心代码原理拆解

三、反爬机制应对策略

3.1 常见反爬问题及解决方案

3.2 进阶优化建议

四、注意事项

总结

Python 爬虫实战：爬取飞猪旅行酒店套餐信息

前言

摘要

一、爬虫开发前置知识

1.1 核心原理

1.2 环境依赖

二、实战开发流程

2.1 目标分析

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 核心代码实现

2.3 代码输出结果示例

2.4 核心代码原理拆解

三、反爬机制应对策略

3.1 常见反爬问题及解决方案

3.2 进阶优化建议

四、注意事项

总结