跳到主要内容
极客日志极客日志
首页博客AI提示词GitHub精选代理工具
搜索
|注册
博客列表

目录

  1. 一、前言
  2. 本次实战目标
  3. 二、环境准备
  4. 1. 所需 Python 库
  5. 安装核心库
  6. 2. 环境说明
  7. 三、完整实战代码
  8. 导入自动化模块(核心:页面操作 + 接口监听)
  9. 格式化输出(方便调试,查看数据结构)
  10. 导入 csv 模块(处理 CSV 文件写入)
  11. 四、核心代码解析
  12. 1. CSV 文件初始化
  13. 2. 浏览器初始化与接口监听
  14. 3. 循环翻页与数据提取
  15. 4. 数据安全提取与写入
  16. 5. 翻页逻辑与资源释放
  17. 五、运行结果展示
  18. 1. 终端运行日志
  19. 2. CSV 文件结果
  20. 六、注意事项与优化建议
  21. 1. 注意事项
  22. 2. 优化建议
  23. 下滑后添加延时
  24. 七、总结
  • 💰 8折买阿里云服务器限时8折了解详情
Python算法

Python 爬虫实战:使用 DrissionPage 抓取 BOSS 直聘岗位数据

通过 DrissionPage 框架实现 BOSS 直聘大数据开发岗位的批量爬取。无需分析复杂页面元素,直接监听接口数据包获取 JSON 数据。提取岗位名称、公司、薪资等核心信息并存储至 CSV 文件。支持自动翻页,可调整城市编码和爬取页数。代码简洁易懂,适合新手快速上手进行招聘数据分析。

机器人发布于 2026/3/230 浏览

一、前言

在求职或行业调研过程中,我们常常需要批量获取招聘平台的岗位信息,手动复制粘贴效率极低。本文将通过 DrissionPage 框架实现BOSS 直聘大数据开发岗位的批量爬取,无需分析复杂的页面元素,直接监听接口数据包获取 JSON 数据,最终将结果存入 CSV 文件,全程代码简洁易懂,新手也能快速上手。

本次实战目标
  1. 监听 BOSS 直聘岗位列表接口,获取结构化 JSON 数据
  2. 提取岗位名称、公司、薪资、学历要求等核心信息
  3. 将爬取结果批量存入 CSV 文件,方便后续数据分析
  4. 实现自动翻页,爬取前 20 页的岗位数据

二、环境准备

1. 所需 Python 库

本次实战核心使用 DrissionPage 框架(集 Selenium 和 Requests 优势于一体,支持接口监听、页面操作),另外使用 Python 内置的 模块处理文件, 用于格式化输出。

csv
pprint
安装核心库

打开终端 / 命令提示符,执行以下安装命令:

pip install DrissionPage 
2. 环境说明
  • Python 版本:3.9 及以上(推荐 3.9~3.11)
  • 操作系统:Windows/macOS/Linux 均兼容
  • 无需额外配置浏览器:DrissionPage 会自动适配本地 Chrome 浏览器,若未安装 Chrome,框架会提示自动下载

三、完整实战代码

直接复制以下代码,运行即可实现爬取(无需修改核心内容,可根据需求调整岗位关键词和爬取页数)。

# 导入自动化模块(核心:页面操作 + 接口监听)
from DrissionPage import ChromiumPage
# 格式化输出(方便调试,查看数据结构)
from pprint import pprint
# 导入 csv 模块(处理 CSV 文件写入)
import csv

def crawl_boss_zhipin():
    # 1. 初始化 CSV 文件,配置表头和写入对象
    with open('boss.csv', mode='w', encoding='utf-8', newline='') as f:
        # 定义 CSV 文件表头字段
        csv_fieldnames = [
            '岗位名称', '公司', '规模', '公司领域', '学历要求', '经验要求',
            '技能需求', '福利待遇', '薪资', '市', '区', '商圈', '经度', '纬度'
        ]
        # 初始化 DictWriter 对象(用于字典格式数据写入)
        csv_writer = csv.DictWriter(f, fieldnames=csv_fieldnames)
        # 写入 CSV 表头
        csv_writer.writeheader()

        # 2. 初始化浏览器对象,开启接口监听
        dp = ChromiumPage()
        # 监听接口关键词:joblist(匹配 BOSS 直聘岗位列表接口)
        dp.listen.start('joblist')
        # 访问 BOSS 直聘大数据开发岗位页面(city=101280600 对应深圳,可修改城市编码)
        target_url = 'https://www.zhipin.com/web/geek/jobs?query=%E5%A4%A7%E6%95%B0%E6%8D%AE%E5%BC%80%E5%8F%91&city=101280600'
        dp.get(target_url)

        # 3. 循环翻页,爬取前 20 页数据
        total_pages = 20
        for page in range(1, total_pages + 1):
            print(f'========== 正在采集第{page}页数据内容 ==========')
            try:
                # 等待接口数据包返回(超时时间默认 30 秒,可调整)
                resp = dp.listen.wait()
                # 获取接口返回的 JSON 数据
                json_data = resp.response.body

                # 4. 提取岗位列表数据,解析并写入 CSV
                # 从 JSON 数据中提取岗位列表(核心数据节点)
                job_list = json_data['zpData']['jobList']
                for job in job_list:
                    # 构造单条岗位数据字典
                    job_info = {
                        '岗位名称': job.get('jobName', ''),
                        '公司': job.get('brandName', ''),
                        '规模': job.get('brandScaleName', ''),
                        '公司领域': job.get('brandIndustry', ''),
                        '学历要求': job.get('jobDegree', ''),
                        '经验要求': job.get('jobExperience', ''),
                        '技能需求': job.get('skills', []),
                        '福利待遇': job.get('welfareList', []),
                        '薪资': job.get('salaryDesc', ''),
                        '市': job.get('cityName', ''),
                        '区': job.get('areaDistrict', ''),
                        '商圈': job.get('businessDistrict', ''),
                        '经度': job.get('gps', {}).get('longitude', ''),
                        '纬度': job.get('gps', {}).get('latitude', '')
                    }
                    # 写入单条岗位数据到 CSV
                    csv_writer.writerow(job_info)
                    # 格式化输出当前爬取的岗位信息(方便查看进度)
                    pprint(job_info)

                # 5. 页面下滑到底部,触发下一页数据加载(核心翻页逻辑)
                dp.scroll.to_bottom()
            except Exception as e:
                print(f'第{page}页数据采集失败,错误信息:{str(e)}')
                continue

        # 6. 爬取完成,关闭浏览器
        dp.quit()
        print(f'========== 全部{total_pages}页数据采集完成,结果已存入 boss.csv ==========')

if __name__ == '__main__':
    crawl_boss_zhipin()

四、核心代码解析

1. CSV 文件初始化
  • 使用 open() 函数创建 CSV 文件,指定 mode='w'(写入模式)、encoding='utf-8'(防止中文乱码)、newline=''(避免 CSV 文件出现空行)
  • csv.DictWriter() 支持直接写入字典格式数据,fieldnames 定义 CSV 表头,与后续提取的字段一一对应
  • writeheader() 写入表头,为后续数据写入做准备
2. 浏览器初始化与接口监听
  • ChromiumPage() 实例化浏览器对象,自动启动本地 Chrome 浏览器
  • dp.listen.start('joblist'):开启接口监听,关键词 joblist 用于匹配 BOSS 直聘的岗位列表接口,无需手动分析完整接口 URL,简化开发
  • dp.get() 访问目标岗位页面,自动加载页面并触发接口请求
3. 循环翻页与数据提取
  • 循环 range(1, 21) 实现前 20 页数据爬取,可修改 total_pages 调整爬取页数
  • dp.listen.wait():等待接口数据包返回,直到获取到匹配 joblist 的接口响应,超时默认 30 秒
  • json_data = resp.response.body:直接获取接口返回的 JSON 数据,无需手动解析 JSON 字符串,DrissionPage 已自动处理
  • 从 json_data['zpData']['jobList'] 提取岗位列表,这是接口返回数据的核心节点,可通过浏览器 F12 开发者工具分析确认
4. 数据安全提取与写入
  • 使用 job.get(key, 默认值) 替代 job[key]:避免因接口返回数据缺失某个字段导致程序报错终止,提高代码健壮性
  • 嵌套字典(如 gps)使用 job.get('gps', {}).get('longitude', '') 实现安全取值,即使 gps 字段不存在也不会报错
  • csv_writer.writerow(job_info):将单条岗位字典数据写入 CSV 文件,自动对应表头字段
5. 翻页逻辑与资源释放
  • dp.scroll.to_bottom():将页面下滑到底部,触发 BOSS 直聘的懒加载机制,加载下一页岗位数据(这是本次实战的核心翻页技巧,无需点击分页按钮)
  • dp.quit():爬取完成后关闭浏览器,释放系统资源

五、运行结果展示

1. 终端运行日志

运行代码后,终端会输出每一页的爬取进度,以及单条岗位的格式化信息,如下所示:

========== 正在采集第 1 页数据内容 ==========
{'公司': '某科技有限公司', '公司领域': '大数据/人工智能', '商圈': '科技园', '学历要求': '本科', '经度': '113.94xxx', '纬度': '22.54xxx', '经验要求': '3-5 年', '福利待遇': ['五险一金', '年终奖金', '定期体检'], '技能需求': ['Hadoop', 'Spark', 'Hive'], '薪资': '25-35K·13 薪', '市': '深圳市', '区': '南山区', '规模': '500-999 人', '岗位名称': '大数据开发工程师'}
2. CSV 文件结果

爬取完成后,在代码同级目录下会生成 boss.csv 文件,可用 Excel、WPS 或记事本打开,数据格式规整,无中文乱码。

六、注意事项与优化建议

1. 注意事项
  • 反爬机制:BOSS 直聘有反爬限制,请勿频繁运行代码,建议爬取间隔适当延长(可添加 time.sleep(2) 避免被封禁 IP)
  • 城市编码修改:目标 URL 中的 city=101280600 对应深圳,如需爬取其他城市,可在 BOSS 直聘官网切换城市后,复制 URL 中的城市编码替换
  • 中文乱码问题:CSV 文件打开若出现乱码,可选择用 Excel 打开,选择「数据」→「自文本 / CSV」,编码选择「UTF-8」
  • 接口关键词验证:若无法获取数据,可打开浏览器 F12→「网络」→「XHR」,查看岗位列表接口的 URL 中是否包含 joblist,若不包含,需修改监听关键词
2. 优化建议
  • 添加延时控制:在翻页逻辑中添加 time.sleep(3),避免请求过快触发反爬,代码如下:
import time
# 下滑后添加延时
dp.scroll.to_bottom()
time.sleep(3)
  • 异常数据过滤:可添加判断条件,过滤掉薪资为空、学历要求为空的无效岗位数据
  • 多线程爬取:对于大批量数据爬取,可结合 threading 实现多线程爬取,提高效率
  • 数据去重:爬取完成后,可对 CSV 文件进行去重处理,避免重复岗位数据

七、总结

本次实战通过 DrissionPage 框架实现了 BOSS 直聘岗位数据的批量爬取,核心亮点是接口监听,无需分析复杂的页面 DOM 结构,直接获取结构化 JSON 数据,相比传统的页面元素解析,效率更高、稳定性更强。

通过本文的学习,你不仅掌握了招聘平台数据爬取的方法,还能举一反三,将该思路应用到其他支持懒加载的网站数据爬取中。同时,csv 模块的使用也为后续数据分析打下了基础,爬取的 boss.csv 文件可进一步用 pandas 进行数据清洗、可视化分析。

  • 💰 8折买阿里云服务器限时8折购买
  • 🦞 5分钟部署阿里云小龙虾了解详情
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog

更多推荐文章

查看全部
  • 开源 AI 编程工具 OpenCode 全面解析
  • 基于 Python Django 的电影市场预测分析系统数据可视化
  • MySQL 表约束全指南
  • Claude Skills 开源项目解析:Skill Creator、Superpowers 与 Code Review
  • Discord 机器人创建与配置完整流程指南
  • 飞算 JavaAI 实战:从老项目重构到全栈开发
  • HarmonyOS6 RcList 组件核心架构与类型系统设计
  • Proxy 与 Object.defineProperty 深度解析:JavaScript 拦截机制
  • 基于 HTML5+CSS3+JavaScript 的高木同学圣诞 GalGame 开发
  • 飞算 JavaAI 插件使用体验与功能分析
  • Elasticsearch + Kibana 实战指南:从安装部署到 C++ 客户端封装
  • 基于 Rust 与 GLM-5 构建高性能 AI 翻译 CLI 工具
  • 鸿蒙金融理财全栈项目:生态合作、用户运营与数据变现
  • 飞算 Java AI 编程助手功能介绍与实战演示
  • 优选算法模拟:LeetCode 1419 数青蛙解法
  • Clang Power Tools 实现 C++ 静态分析与 Visual Studio 深度集成
  • Elasticsearch 核心概念与 Java 客户端实战
  • HarmonyOS PreviewKit 文件预览功能入门与后端实现
  • VoxCPM-1.5-TTS-WEB-UI 基于镜像站的快速部署方案
  • Python Selenium 与 Chrome WebDriver 深度配置实战

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online

  • Base64 文件转换器

    将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online

  • Markdown转HTML

    将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online

  • HTML转Markdown

    将 HTML 片段转为 GitHub Flavored Markdown,支持标题、列表、链接、代码块与表格等;浏览器内处理,可链接预填。 在线工具,HTML转Markdown在线工具,online