Python 爬虫解析利器：PyQuery 快速入门 | 极客日志

Python

Python 爬虫解析利器：PyQuery 快速入门

PyQuery 是基于 jQuery 风格的 Python HTML 解析库，适合快速进行网页数据提取。介绍其基本用法，包括 CSS 选择器获取元素、遍历父子兄弟节点、提取属性与文本内容以及伪类选择器的应用。通过实际代码示例展示如何高效处理网页结构，替代复杂的正则或 XPath，提升爬虫开发效率。适合需要快速进行数据抓取的开发者参考。

HadoopMan发布于 2025/1/17更新于 2026/6/1718 浏览

PyQuery 快速上手

为什么选择 PyQuery

在 Python 爬虫开发中，处理 HTML 结构是家常便饭。虽然 BeautifulSoup 和 lxml 很强大，但如果你熟悉 jQuery，PyQuery 会让你倍感亲切。它用 CSS 选择器操作 DOM，代码简洁，非常适合快速提取数据。

基础环境

安装很简单，直接 pip 搞定：

pip install pyquery

导入模块时，习惯上这样写：

from pyquery import PyQuery as pq

核心功能实战

1. 元素选择

PyQuery 的核心在于 CSS 选择器。不管是 ID、类名还是层级关系，都能轻松搞定。

html = '<div id="main"><p class="text">Hello</p></div>'
doc = pq(html)

# 获取 ID 为 main 的元素
print(doc('#main')) 

# 获取所有 class 为 text 的段落
print(doc('.text')) 

# 获取 div 下的第一个 p
print(doc('div > p:first'))

注意，返回的是一个 PyQuery 对象，可以继续链式调用。

2. 节点遍历

有时候我们需要往上找父级，或者往两边找兄弟节点，PyQuery 提供了直观的方法。

# 获取父元素
parent = doc('p').parent()

# 获取子元素列表
children = doc('div').children()

# 获取同级兄弟元素
siblings = doc('p').siblings()

# 获取下一个或上一个兄弟
next_p = doc('p').next()
prev_p = doc('p').prev()

这里有个细节，siblings() 会返回当前元素之外的所有兄弟，如果只想排除自身，记得过滤一下。

3. 内容与属性

提取文本或属性值是最常见的需求，方法也很统一。

# 获取文本内容（去除多余空白）
text = doc('.text').text() 

# 获取特定属性
href = doc('a').attr() 


html_content = doc().html() 


doc().attr(, )

相关免费在线工具

curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online
JSON 压缩
通过删除不必要的空白来缩小和压缩JSON。在线工具，JSON 压缩在线工具，online

# 获取第 N 个元素（从 0 开始）
elem = doc('p:eq(1)') 

# 获取第一个
first = doc('p:first') 

# 获取最后一个
last = doc('p:last') 

# 获取奇数/偶数项
odd = doc('li:odd')

Python 爬虫解析利器：PyQuery 快速入门

PyQuery 快速上手

为什么选择 PyQuery

基础环境

核心功能实战

1. 元素选择

2. 节点遍历

3. 内容与属性

更多推荐文章

相关免费在线工具

4. 伪类选择器

避坑指南

更多推荐文章

相关免费在线工具

Python 爬虫解析利器：PyQuery 快速入门

PyQuery 快速上手

为什么选择 PyQuery

基础环境

核心功能实战

1. 元素选择

2. 节点遍历

3. 内容与属性

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4. 伪类选择器

避坑指南

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具