Python 爬虫 XPath 语法详解与实战案例 | 极客日志

Python

Python 爬虫 XPath 语法详解与实战案例

XPath 是 XML 路径语言，在 Python 爬虫中用于高效提取网页数据。文章介绍了 XPath 的基础语法，包括路径规则、谓语条件、通配符及常用函数。通过 lxml 库演示了字符串转 HTML、绝对与相对路径查找、属性匹配等核心操作。结合豆瓣读书信息抓取、图片批量下载及城市名称爬取三个实战案例，展示了如何灵活组合 XPath 表达式解决实际问题。

JavaCoder发布于 2025/1/19更新于 2026/7/2136 浏览

Python 爬虫 XPath 语法详解与实战案例

在编写 Python 爬虫时，面对复杂的网页结构，正则表达式往往显得力不从心。这时候，XPath 就成了解析数据的利器。它最初用于 XML，但在 HTML 处理上同样强大。

XPath 基础

XPath（XML Path Language）是一门在文档中查找信息的语言。它的选择功能十分强大，提供了简洁明了的路径选择表达式，并内置超过 100 个函数，几乎能定位所有想要获取的节点。

路径常用规则

表达式	描述	示例
nodename	选取此节点的所有子节点	`//div`
/	从根节点选取	`/html/body/div`
//	选取所有当前节点，不考虑位置	`//a`
.	选取当前节点	`./li`
..	选取当前节点的父节点	`../ul`
@	选取属性	`@href`

谓语规则

谓语被嵌在方括号内，用来查找某个特定的节点或包含特定值的节点。

表达式	结果
`/body/div[1]`	选取 body 下的第一个 div 节点
`/body/div[last()]`	选取 body 下最后一个 div 节点
`/body/div[position()>=1]`	选取 body 下前两个 div 节点
`/body/div[@class]`	选取 body 下带有 class 属性的 div 节点
`/body/div[@class="main"]`	选取 body 下 class 属性为 main 的 div 节点

通配符与多路径

通配符用于选取未知的 XML 元素，使用'|'运算符可以选取多个路径。

表达式	结果
`/div/*`	选取 div 下的所有子节点
`/div[@*]`	选取所有带属性的 div 节点
`//div	//table`

常用函数

使用功能函数能够进行更灵活的模糊搜索。

函数	用法	解释

相关免费在线工具

curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online
JSON 压缩
通过删除不必要的空白来缩小和压缩JSON。在线工具，JSON 压缩在线工具，online

from lxml import etree

text = '''
<div>
    <ul id='ultest'>
        <li class="item-0"><a href="link1.html">first item</a></li>
        <li class="item-1"><a href="link2.html">second item</a></li>
        <li class="item-inactive"><a href="link3.html">third item</a></li>
        <li class="item-1"><a href="link4.html"><span>fourth item</span></a></li>
        <li class="item-0"><a href="link5.html">fifth item</a></li>
    </ul>
</div>
'''

# 调用 HTML 类进行初始化，构造 XPath 解析对象
page = etree.HTML(text)
print(type(page))  # <class 'lxml.etree._Element'>

a = page.xpath("/html/body/div/ul/li/a")
for i in a:
    print(i.text)

first item
second item
third item
None
fifth item

html = etree.HTML(text)
a = html.xpath("//a/text()")
print(a)

page = etree.HTML(text)
ul = page.xpath("//ul")
print(ul[0].xpath("."))
print(ul[0].xpath("./li"))
print(ul[0].xpath("./li/a/text()"))

# 查找 a 标签下属性 href 值为 link2.html 的内容
html = etree.HTML(text)
a = html.xpath("//a[@href='link2.html']/text()")
print(a)  # ['second item']

# 查找最后一个 li 标签里的 a 标签的 href 属性
html = etree.HTML(text)
a = html.xpath("//li[last()]/a/text()")
print(a)  # ['fifth item']

# 查找 a 标签中属性 href 包含 link 的节点
a = html.xpath("//a[contains(@href, 'link')]/text()")
print(a)  # ['first item', 'second item', 'third item', 'fifth item']

import requests
from lxml import etree

class DoubanBook:
    def __init__(self):
        self.base_url = 'https://book.douban.com/chart?subcat=all&icn=index-topchart-popular'
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36'
        }

    def crawl(self):
        res = requests.get(self.base_url, headers=self.headers)
        lis = etree.HTML(res.text).xpath('//*[@id="content"]/div/div[1]/ul/li')
        books = []
        for li in lis:
            title = "".join(li.xpath(".//a[@class='fleft']/text()"))
            score = "".join(li.xpath(".//p[@class='clearfix w250']/span[2]/text()"))
            publishing = "".join(li.xpath(".//p[@class='subject-abstract color-gray']/text()")).strip()
            book = {'title': title, 'score': score, 'publishing': publishing}
            books.append(book)
        self.save_data(books)

    def save_data(self, datas):
        with open('books.txt', 'w', encoding='utf-8') as f:
            f.write(str(datas))

    def run(self):
        self.crawl()

if __name__ == '__main__':
    DoubanBook().run()

import os
import requests
from lxml import etree

class BiAn:
    def __init__(self):
        self.url = 'https://pic.netbian.com'
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36'
        }
        if not os.path.exists('BianPicture'):
            os.mkdir('BianPicture')

    def crawl(self):
        res = requests.get(self.url, headers=self.headers)
        res.encoding = 'gbk'
        uls = etree.HTML(res.text).xpath('//div[@class="slist"]/ul[@class="clearfix"]/li')
        for ul in uls:
            img_name = ul.xpath('.//a/b/text()')[0]
            img_src = ul.xpath('.//a/span/img/@src')[0]
            img_url = self.url + img_src
            img_res = requests.get(img_url, headers=self.headers).content
            img_path = "BianPicture/" + img_name + ".jpg"
            with open(img_path, 'wb') as f:
                f.write(img_res)

    def run(self):
        self.crawl()

if __name__ == '__main__':
    BiAn().run()

import os
import requests
from lxml import etree

class CityName:
    def __init__(self):
        self.url = 'https://www.aqistudy.cn/historydata/'
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36'
        }
        if not os.path.exists('city_project'):
            os.mkdir('city_project')

    def crawl(self):
        res = requests.get(url=self.url, headers=self.headers).text
        uls = etree.HTML(res).xpath('//div[@class="all"]/div[2]/ul/div[2]/li')
        all_city_name = list()
        for ul in uls:
            city_name = ul.xpath('.//a/text()')[0]
            all_city_name.append(city_name)
        self.save_data(all_city_name)

    def save_data(self, data):
        with open('./city_project/city.txt', 'w') as f:
            f.write(str(data))

    def run(self):
        self.crawl()

if __name__ == '__main__':
    CityName().run()

Python 爬虫 XPath 语法详解与实战案例

Python 爬虫 XPath 语法详解与实战案例

XPath 基础

路径常用规则

谓语规则

通配符与多路径

常用函数

更多推荐文章

相关免费在线工具

代码实战

查找绝对路径

查找相对路径（常用）

当前标签节点

父节点与属性匹配

常用函数应用

实战案例

案例一：豆瓣读书

案例二：图片下载

案例三：全国城市名称爬取

辅助工具

Chrome 生成 XPath

Xpath Helper 插件

更多推荐文章

相关免费在线工具

Python 爬虫 XPath 语法详解与实战案例

Python 爬虫 XPath 语法详解与实战案例

XPath 基础

路径常用规则

谓语规则

通配符与多路径

常用函数

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

代码实战

查找绝对路径

查找相对路径（常用）

当前标签节点

父节点与属性匹配

常用函数应用

实战案例

案例一：豆瓣读书

案例二：图片下载

案例三：全国城市名称爬取

辅助工具

Chrome 生成 XPath

Xpath Helper 插件

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具