【Python 爬虫实战】抓取 BOSS 直聘

一、前言

在求职或行业调研过程中,我们常常需要批量获取招聘平台的岗位信息,手动复制粘贴效率极低。本文将通过 DrissionPage 框架实现BOSS 直聘大数据开发岗位的批量爬取,无需分析复杂的页面元素,直接监听接口数据包获取 JSON 数据,最终将结果存入 CSV 文件,全程代码简洁易懂,新手也能快速上手。

本次实战目标

  1. 监听 BOSS 直聘岗位列表接口,获取结构化 JSON 数据
  2. 提取岗位名称、公司、薪资、学历要求等核心信息
  3. 将爬取结果批量存入 CSV 文件,方便后续数据分析
  4. 实现自动翻页,爬取前 20 页的岗位数据

二、环境准备

1. 所需 Python 库

本次实战核心使用 DrissionPage 框架(集 Selenium 和 Requests 优势于一体,支持接口监听、页面操作),另外使用 Python 内置的 csv 模块处理文件,pprint 用于格式化输出。

安装核心库

打开终端 / 命令提示符,执行以下安装命令:

pip install DrissionPage 

2. 环境说明

  • Python 版本:3.9 及以上(推荐 3.9~3.11)
  • 操作系统:Windows/macOS/Linux 均兼容
  • 无需额外配置浏览器:DrissionPage 会自动适配本地 Chrome 浏览器,若未安装 Chrome,框架会提示自动下载

三、完整实战代码

直接复制以下代码,运行即可实现爬取(无需修改核心内容,可根据需求调整岗位关键词和爬取页数)。

# 导入自动化模块(核心:页面操作+接口监听) from DrissionPage import ChromiumPage # 格式化输出(方便调试,查看数据结构) from pprint import pprint # 导入csv模块(处理CSV文件写入) import csv def crawl_boss_zhipin(): # 1. 初始化CSV文件,配置表头和写入对象 with open('boss.csv', mode='w', encoding='utf-8',) as f: # 定义CSV文件表头字段 csv_fieldnames = [ '岗位名称', '公司', '规模', '公司领域', '学历要求', '经验要求', '技能需求', '福利待遇', '薪资', '市', '区', '商圈', '经度', '纬度' ] # 初始化DictWriter对象(用于字典格式数据写入) csv_writer = csv.DictWriter(f, fieldnames=csv_fieldnames) # 写入CSV表头 csv_writer.writeheader() # 2. 初始化浏览器对象,开启接口监听 dp = ChromiumPage() # 监听接口关键词:joblist(匹配BOSS直聘岗位列表接口) dp.listen.start('joblist') # 访问BOSS直聘大数据开发岗位页面(city=101280600 对应深圳,可修改城市编码) target_url = 'https://www.zhipin.com/web/geek/jobs?query=%E5%A4%A7%E6%95%B0%E6%8D%AE%E5%BC%80%E5%8F%91&city=101280600' dp.get(target_url) # 3. 循环翻页,爬取前20页数据 total_pages = 20 for page in range(1, total_pages + 1): print(f'========== 正在采集第{page}页数据内容 ==========') try: # 等待接口数据包返回(超时时间默认30秒,可调整) resp = dp.listen.wait() # 获取接口返回的JSON数据 json_data = resp.response.body # 4. 提取岗位列表数据,解析并写入CSV # 从JSON数据中提取岗位列表(核心数据节点) job_list = json_data['zpData']['jobList'] for job in job_list: # 构造单条岗位数据字典 job_info = { '岗位名称': job.get('jobName', ''), # 使用get方法避免键不存在报错 '公司': job.get('brandName', ''), '规模': job.get('brandScaleName', ''), '公司领域': job.get('brandIndustry', ''), '学历要求': job.get('jobDegree', ''), '经验要求': job.get('jobExperience', ''), '技能需求': job.get('skills', []), '福利待遇': job.get('welfareList', []), '薪资': job.get('salaryDesc', ''), '市': job.get('cityName', ''), '区': job.get('areaDistrict', ''), '商圈': job.get('businessDistrict', ''), '经度': job.get('gps', {}).get('longitude', ''), # 嵌套字典安全取值 '纬度': job.get('gps', {}).get('latitude', '') } # 写入单条岗位数据到CSV csv_writer.writerow(job_info) # 格式化输出当前爬取的岗位信息(方便查看进度) pprint(job_info) # 5. 页面下滑到底部,触发下一页数据加载(核心翻页逻辑) dp.scroll.to_bottom() except Exception as e: print(f'第{page}页数据采集失败,错误信息:{str(e)}') continue # 6. 爬取完成,关闭浏览器 dp.quit() print(f'========== 全部{total_pages}页数据采集完成,结果已存入boss.csv ==========') if __name__ == '__main__': crawl_boss_zhipin() 

四、核心代码解析

1. CSV 文件初始化

  • 使用 open() 函数创建 CSV 文件,指定 mode='w'(写入模式)、encoding='utf-8'(防止中文乱码)、newline=''(避免 CSV 文件出现空行)
  • csv.DictWriter() 支持直接写入字典格式数据,fieldnames 定义 CSV 表头,与后续提取的字段一一对应
  • writeheader() 写入表头,为后续数据写入做准备

2. 浏览器初始化与接口监听

  • ChromiumPage() 实例化浏览器对象,自动启动本地 Chrome 浏览器
  • dp.listen.start('joblist'):开启接口监听,关键词 joblist 用于匹配 BOSS 直聘的岗位列表接口,无需手动分析完整接口 URL,简化开发
  • dp.get() 访问目标岗位页面,自动加载页面并触发接口请求

3. 循环翻页与数据提取

  • 循环 range(1, 21) 实现前 20 页数据爬取,可修改 total_pages 调整爬取页数
  • dp.listen.wait():等待接口数据包返回,直到获取到匹配 joblist 的接口响应,超时默认 30 秒
  • json_data = resp.response.body:直接获取接口返回的 JSON 数据,无需手动解析 JSON 字符串,DrissionPage 已自动处理
  • json_data['zpData']['jobList'] 提取岗位列表,这是接口返回数据的核心节点,可通过浏览器 F12 开发者工具分析确认

4. 数据安全提取与写入

  • 使用 job.get(key, 默认值) 替代 job[key]:避免因接口返回数据缺失某个字段导致程序报错终止,提高代码健壮性
  • 嵌套字典(如 gps)使用 job.get('gps', {}).get('longitude', '') 实现安全取值,即使 gps 字段不存在也不会报错
  • csv_writer.writerow(job_info):将单条岗位字典数据写入 CSV 文件,自动对应表头字段

5. 翻页逻辑与资源释放

  • dp.scroll.to_bottom():将页面下滑到底部,触发 BOSS 直聘的懒加载机制,加载下一页岗位数据(这是本次实战的核心翻页技巧,无需点击分页按钮)
  • dp.quit():爬取完成后关闭浏览器,释放系统资源

五、运行结果展示

1. 终端运行日志

运行代码后,终端会输出每一页的爬取进度,以及单条岗位的格式化信息,如下所示:

========== 正在采集第1页数据内容 ========== {'公司': '某科技有限公司', '公司领域': '大数据/人工智能', '商圈': '科技园', '学历要求': '本科', '经度': '113.94xxx', '纬度': '22.54xxx', '经验要求': '3-5年', '福利待遇': ['五险一金', '年终奖金', '定期体检'], '技能需求': ['Hadoop', 'Spark', 'Hive'], '薪资': '25-35K·13薪', '市': '深圳市', '区': '南山区', '规模': '500-999人', '岗位名称': '大数据开发工程师'} 

2. CSV 文件结果

爬取完成后,在代码同级目录下会生成 boss.csv 文件,可用 Excel、WPS 或记事本打开,数据格式规整,无中文乱码,如下所示(部分截图):

六、注意事项与优化建议

1. 注意事项

  • 反爬机制:BOSS 直聘有反爬限制,请勿频繁运行代码,建议爬取间隔适当延长(可添加 time.sleep(2) 避免被封禁 IP)
  • 城市编码修改:目标 URL 中的 city=101280600 对应深圳,如需爬取其他城市,可在 BOSS 直聘官网切换城市后,复制 URL 中的城市编码替换
  • 中文乱码问题:CSV 文件打开若出现乱码,可选择用 Excel 打开,选择「数据」→「自文本 / CSV」,编码选择「UTF-8」
  • 接口关键词验证:若无法获取数据,可打开浏览器 F12→「网络」→「XHR」,查看岗位列表接口的 URL 中是否包含 joblist,若不包含,需修改监听关键词

2. 优化建议

  • 添加延时控制:在翻页逻辑中添加 time.sleep(3),避免请求过快触发反爬,代码如下:
import time # 下滑后添加延时 dp.scroll.to_bottom() time.sleep(3) 
  • 异常数据过滤:可添加判断条件,过滤掉薪资为空、学历要求为空的无效岗位数据
  • 多线程爬取:对于大批量数据爬取,可结合 threading 实现多线程爬取,提高效率
  • 数据去重:爬取完成后,可对 CSV 文件进行去重处理,避免重复岗位数据

七、总结

本次实战通过 DrissionPage 框架实现了 BOSS 直聘岗位数据的批量爬取,核心亮点是接口监听,无需分析复杂的页面 DOM 结构,直接获取结构化 JSON 数据,相比传统的页面元素解析,效率更高、稳定性更强。

通过本文的学习,你不仅掌握了招聘平台数据爬取的方法,还能举一反三,将该思路应用到其他支持懒加载的网站数据爬取中。同时,csv 模块的使用也为后续数据分析打下了基础,爬取的 boss.csv 文件可进一步用 pandas 进行数据清洗、可视化分析。

如果运行过程中遇到问题,欢迎在评论区留言讨论,喜欢本文的话,记得点赞 + 收藏哦!

总结

  1. 本次实战核心依赖DrissionPage框架,其接口监听功能可快速获取结构化 JSON 数据,简化爬取流程。
  2. 代码采用csv.DictWriter写入字典数据,配合get()方法安全取值,提高了代码的健壮性和可维护性。
  3. 翻页逻辑依赖页面下滑触发懒加载,无需手动操作分页按钮,适配 BOSS 直聘的页面机制,新手易上手。
  4. 爬取结果存入CSV文件,格式规整无乱码,可直接用于后续数据分析,具备较强的实用性。

Read more

【混元AIGC+腾讯云智能体+首创Coze核心流思维导图MCP】:打造一个文思通-智能写作助手Agent

【混元AIGC+腾讯云智能体+首创Coze核心流思维导图MCP】:打造一个文思通-智能写作助手Agent

【混元AIGC+腾讯云智能体+首创Coze核心流思维导图MCP】:打造一个文思通-智能写作助手Agent 1.背景 作为一名长期关注人工智能发展的内容创作者,我经常需要撰写关于AI技术、应用趋势和产品体验的文章。然而,在实际写作过程中,常常会遇到灵感枯竭、结构混乱、表达不够精准等问题。有时候写到一半才发现逻辑断层,或者内容重复,甚至忘记了一些关键知识点。 为了解决这些痛点,我决定打造一个专属于自己的智能写作助手,取名为“文思通”——寓意“文思如泉涌,条理通达”。这个助手不仅要能帮我生成内容,更要具备结构化思维引导、逻辑梳理和语言润色的能力。 最近,我接触到一种创新的工具组合:以 Coze 平台为核心逻辑流,结合自研的思维导图 MCP 服务,可以实现从文本到可视化思维导图的自动转换。这正好解决了我在构思阶段缺乏条理的问题。而选择开发平台时,我注意到腾讯云智能体开发平台与腾讯混元大模型(Hunyuan AIGC) 的深度整合能力非常出色,支持工作流编排、插件扩展(MCP),并且提供稳定高效的推理服务。 最终,我决定采用“混元AIGC + 腾讯云智能体平台

By Ne0inhk
AI编程工具对比:Cursor、GitHub Copilot与Claude Code

AI编程工具对比:Cursor、GitHub Copilot与Claude Code

文章目录 * AI编程工具对比:Cursor、GitHub Copilot与Claude Code * 一、产品定位与核心架构 * 1.1 Cursor:AI原生IDE的代表 * 1.2 GitHub Copilot:代码补全的行业标杆 * 1.3 Claude Code:终端Agent的革新者 * 二、核心功能深度对比 * 2.1 代码生成与理解能力 * 2.2 自动化与工作流集成 * 2.3 隐私与数据安全 * 三、成本效益分析 * 3.1 定价模式对比 * 3.2 投资回报比 * 四、适用场景与用户画像 * 4.1 最佳应用场景 * 4.2 用户反馈摘要 * 五、

By Ne0inhk

【GitHub项目推荐--TypeTale(字字动画):免费AIGC视频创作工具】非开源

简介 TypeTale (字字动画)是一款专为内容创作者打造的完全免费的AIGC创作软件,主要用于小说推文、AI短剧、AI电影制作。它集成了多种AI能力,提供从文案处理到视频生成的全链路创作支持,承诺现有功能与基础功能永久免费。 🔗 GitHub地址 : https://github.com/TypeTale/TypeTale 🎬 核心价值 : AIGC视频生成 · 小说推文 · AI短剧 · 完全免费 · 中文优化 项目背景 : * 内容创作 :短视频内容创作需求增长 * AIGC技术 :AI生成内容技术成熟 * 成本控制 :降低视频制作成本需求 * 中文优化 :中文内容创作工具需求 * 开源生态 :开源创作工具生态 项目特色 : * 🆓 完全免费 :永久免费使用 * 🇨🇳 中文优化 :专为中文优化 * 🤖 AI集成 :多AI能力集成 * 🎬 视频生成 :全链路视频生成 * 🔧 易用性 :简单易用界面 技术亮点 : * 多模型支持 :支持多种AI模型 * ComfyUI集成 :深度ComfyUI集成 * 工作流系统

By Ne0inhk

无需任何拓展Copilot接入第三方OpenAI接口教程

禁止搬运,转载需标明本文链接 省流:修改"C:\Users\你的用户名称\.vscode\extensions\github.copilot-chat-0.35.0\package.json"中的"when": "productQualityType != 'stable'"为"when": "productQualityType == 'stable'",即可在copilot添加支持openAI的第三方接口 我在寻找怎么让copilot接入第三方接口的时候,通过别人的贴子(长期有效)接入第三方 OpenAI 兼容模型到 GitHub Copilot-ZEEKLOG博客发现了官方的讨论Add custom OpenAI endpoint configuration

By Ne0inhk