Python 爬虫实战：使用 requests 和正则解析前程无忧招聘信息

前言

网络爬虫是获取互联网数据的重要手段之一。本文将以 Python 语言为基础，通过实际案例演示如何爬取招聘网站（以前程无忧为例）的招聘信息。我们将学习爬虫的基本流程、正则表达式的使用、HTTP 请求的发送以及数据的本地存储。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

Python 版本：推荐使用 Python 3.8 及以上版本。
开发工具：PyCharm（专业版或社区版均可）、VS Code 等。
依赖库：
- requests：用于发送 HTTP 请求。
- re：Python 内置模块，用于正则表达式匹配。
- json：Python 内置模块，用于处理 JSON 数据。
- csv：Python 内置模块，用于保存 CSV 文件。
- time：Python 内置模块，用于控制请求频率。

安装第三方库命令：

pip install requests

爬虫基本思路

一个完整的爬虫程序通常包含以下步骤：

确定目标：明确需要抓取的数据字段，如职位名称、公司名称、薪资范围、工作地点等。
分析数据源：通过浏览器开发者工具（F12）查看网页源代码或网络请求，找到数据来源的 URL 及返回格式。
发送请求：构造 HTTP 请求，模拟浏览器行为，获取服务器响应。
解析数据：从响应内容中提取有效信息，常用方法包括正则表达式、XPath、CSS 选择器等。
保存数据：将提取的数据结构化并保存到本地文件（如 CSV、JSON、数据库）。

数据源分析

以前程无忧搜索页面为例，我们需要访问特定的 URL 来获取 Python 相关的招聘信息。通过 F12 打开开发者工具，切换到 Network（网络）标签页，刷新页面后可以看到加载的请求。分析发现，数据是通过 JavaScript 动态渲染的，直接请求 HTML 可能无法获取完整数据，但可以通过分析接口返回的 JSON 字符串来提取。

目标 URL 结构示例：

https://search.51job.com/list/010000%252C020000%252C030200%252C040000%252C090200,000000,0000,00,9,99,python,2,{page}.html

其中 {page} 代表页码参数。

代码实现

导入模块

首先导入所需的 Python 标准库和第三方库。

 requests
 re
 json
 csv
 time
 os

class JobScraper: def __init__(self): # 设置基础 URL self.base_url = 'https://search.51job.com/list/' # 设置请求头，伪装成浏览器 self.headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36' } # 初始化 CSV 写入器 self.csv_file = None self.writer = None def start(self): # 创建 CSV 文件 if not os.path.exists('python_招聘数据.csv'): with open('python_招聘数据.csv', mode='w', encoding='utf-8-sig', newline='') as f: writer = csv.DictWriter(f, fieldnames=[ '标题', '公司名字', '城市', '薪资', '招聘信息', '公司属性', '公司规模', '企业性质', '发布日期', '公司详情页', '招聘详情页' ]) writer.writeheader() # 遍历多页数据 for page in range(1, 11): print(f'正在爬取第 {page} 页...') try: self.fetch_page(page) # 避免请求过快被封禁，增加延时 time.sleep(1) except Exception as e: print(f'第 {page} 页爬取失败：{e}') continue def fetch_page(self, page): # 拼接 URL url = f'{self.base_url}010000%252C020000%252C030200%252C040000%252C090200,000000,0000,00,9,99,python,2,{page}.html' # 发送请求 response = requests.get(url=url, headers=self.headers, timeout=10) # 检查状态码 if response.status_code == 200: # 解析数据 data_list = self.parse_data(response.text) # 保存数据 self.save_to_csv(data_list) else: raise Exception(f'请求失败，状态码：{response.status_code}') def parse_data(self, html_content): # 使用正则提取 JSON 字符串 # window.__SEARCH_RESULT__ = (.*?)</script> pattern = r'window.__SEARCH_RESULT__\s*=\s*(.*?)</script>' match = re.search(pattern, html_content, re.S) if not match: return [] json_str = match.group(1).strip() try: json_data = json.loads(json_str) # 获取职位列表 jobs = json_data.get('engine_jds', []) return jobs except json.JSONDecodeError: print('JSON 解析失败') return [] def save_to_csv(self, jobs): file_path = 'python_招聘数据.csv' with open(file_path, mode='a', encoding='utf-8-sig', newline='') as f: writer = csv.DictWriter(f, fieldnames=[ '标题', '公司名字', '城市', '薪资', '招聘信息', '公司属性', '公司规模', '企业性质', '发布日期', '公司详情页', '招聘详情页' ]) for job in jobs: item = { '标题': job.get('job_name', ''), '公司名字': job.get('company_name', ''), '城市': job.get('workarea_text', ''), '薪资': job.get('providesalary_text', ''), '招聘信息': '|'.join(job.get('attribute_text', [])), '公司属性': job.get('companyind_text', ''), '公司规模': job.get('companysize_text', ''), '企业性质': job.get('companytype_text', ''), '发布日期': job.get('issuedate', ''), '公司详情页': job.get('company_href', ''), '招聘详情页': job.get('job_href', '') } writer.writerow(item) print(f'已保存：{item["标题"]}') if __name__ == '__main__': scraper = JobScraper() scraper.start()

Python 爬虫实战：使用 requests 和正则解析前程无忧招聘信息