Python 爬虫技术快速入门 | 极客日志

PythonAI算法

Python 爬虫技术快速入门

综述由AI生成Python 爬虫技术的快速入门指南。内容涵盖 Python 基础语法、requests 网络请求库的使用、BeautifulSoup 数据解析方法、正则表达式匹配技巧以及 Selenium 浏览器自动化操作。文章通过具体代码示例讲解了 GET/POST 请求、标签查找、CSS 选择器、元素定位及模拟鼠标操作等核心技能，并补充了遵守 robots.txt 协议、设置请求头、控制请求频率及异常处理等最佳实践，旨在帮助开发者构建稳定高效的爬虫程序。

zhang发布于 2025/2/6更新于 2026/6/421 浏览

1. 背景

在工作中经常需要获取外部数据，使用 Python 结合 Gitlab 实现一套定时爬取数据的工具是常见需求。本文针对 Python 爬虫的核心知识进行梳理，涵盖基础语法、网络请求、数据解析、正则表达式及 Selenium 自动化等模块，帮助开发者快速入门。

需要掌握的核心知识点：

Python 基础语法
Python 网络请求（requests 模块）
HTML/XML 解析（BeautifulSoup）
正则表达式
浏览器自动化（Selenium）

下面针对上述每部分进行详细介绍。

2. Python 基础语法

学习任何编程语言都必须掌握其语法知识，Python 也不例外。如果有其他编程语言基础，上手 Python 会非常快。

2.1 变量

在 Python 中，定义一个变量分为两步：命名和赋值。这两个步骤在同一行代码中完成。

version = '1'

Python 中的变量命名规范与其他开发语言类似，基本规则如下：

变量名可以由任意数量的字母、数字、下划线组合而成，但必须以字母或下划线开头，不能以数字开头。
不要用 Python 的保留字或内置函数来命名变量。例如，不要用 import 来命名变量，因为它是 Python 的保留字。
变量名对英文字母区分大小写。例如，D 和 d 是两个不同的变量。

2.2 数据类型

Python 中有 6 种基本数据类型：数字（Numbers）、字符串（String）、列表（List）、字典（Dictionary）、元组（Tuple）和集合。

2.2.1 数据类型详解

在 Python 中定义变量后需明确对应的数据类型。同时可以使用 del 变量名 删除对象引用。

num = 0
pi = 3.14
name = "abc"
# 定义列表 []，列表元素可以修改
list_data = [12, 2, 212, 44, 5, 6]
dic = {
    "k1": "v1",
    "k2": "v2",
}
# 集合类型用 set 标识，创建使用 { } 或者 set() 
s1 = {1, 2, 3, 3, 2, 2, 2, 1, "1"}
# 元组用 () 表示，元组的元素不能修改
tuple_data = ('runoob', , , , )

 s1

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

数据类型	常用方法
字符串	`- [:]`：截取字符串的一部分（切片），遵循左闭右开原则； `[]`：通过索引获取字符； `in`：如果包含给定字符返回 True； `not in`：如果不包含给定字符返回 True； `capitalize()`：首字符转大写； `endswith(suffix)`：检查是否以指定后缀结束； `find(str)`：检测 str 是否包含，返回索引或 -1； `index(str)`：同 find，但不包含则报错； `len(string)`：返回长度； `replace(old, new)`：替换字符串； `rstrip()`：删除末尾空格； `split(str)`：分割字符串。
列表/元组	`- len(list)`：元素个数； `list(seq)`：转换为列表； `list.append(obj)`：末尾添加对象； `list.index(obj)`：查找匹配项索引； `list.remove(obj)`：移除第一个匹配项； `list.clear()`：清空列表。
字典	`- len(dict)`：键的总数； `key in dict`：判断键是否存在； `dict.items()`：返回 (键，值) 元组数组； `dict.keys()`：返回所有键； `dict.values()`：返回所有值。

if 条件:
    代码块 1
else:
    代码块 2

grade = 60
if grade >= 60:
    print("及格")
else:
    print("不及格")

for i in 序列:
    要重复执行的代码

numbers = [12, 2, 212, 44, 5, 6]
for item in numbers:
    print(item)

while 条件:
    要重复执行的代码

a = 60
while a < 70:
    print(a)
    a = a + 1

def 函数名 (参数):
    实现函数功能的代码

def data_transform():
    # 具体的实现逻辑
    return True

import math  # 导入 math 模块
import turtle  # 导入 turtle 模块

from math import sqrt  # 导入 math 模块中的单个函数
from turtle import forward, backward, right, left  # 导入 turtle 模块中的多个函数

pip install "SomeProject"

import requests
response = requests.get(url='https://www.baidu.com')
print(response.text)

req_url = "https://juejin.org/post"
formdata = {
    'username': 'admin',
    'password': 'a123456',
}
req_header = {
    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
}
response = requests.post(
    req_url,
    data=formdata,
    headers=req_header
)
print(response.text)

if __name__ == '__main__':
    url = "https://www.baidu.com"
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'lxml')
    print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <meta content="text/html;charset=utf-8" http-equiv="content-type"/>
  <title>百度一下，你就知道</title>
 </head>
 <body>
  ... 
 </body>
</html>

if __name__ == '__main__':
    url = "https://www.baidu.com"
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'lxml')
    print(soup.input)

import requests
from bs4 import BeautifulSoup

if __name__ == '__main__':
    url = "https://www.baidu.com"
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'lxml')
    # 查找 class 属性为 bg s_ipt_wr 的标签
    bg_tags = soup.find_all(class_='bg s_ipt_wr')
    for tag in bg_tags:
        print(tag)
    # 查找 name = rsv_idx
    idx = soup.find(attrs={'name': 'rsv_idx'})
    print(idx)

if __name__ == '__main__':
    url = "https://www.baidu.com"
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'lxml')
    # 查找 input 标签且属性 name = rsv_idx
    idx = soup.find('input', attrs={'name': 'rsv_idx'})
    print(idx)

if __name__ == '__main__':
    url = "https://www.baidu.com"
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'lxml')
    input_tag = soup.select('input')
    print(input_tag)

if __name__ == '__main__':
    url = "https://www.baidu.com"
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'lxml')
    input_tag = soup.select('#kw')
    print(input_tag)

if __name__ == '__main__':
    url = "https://www.baidu.com"
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'lxml')
    input_tag = soup.select('.s_ipt')
    print(input_tag)

if __name__ == '__main__':
    url = "https://www.baidu.com"
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'lxml')
    # 查找所有 div 标签下 div 标签的 id 属性值为 lg 的标签
    div_tag = soup.select('div>div>#lg')
    print(div_tag)
    # 查找 form 标签下所有的 input 标签
    input_tag = soup.select('form>input')
    print(input_tag)

if __name__ == '__main__':
    url = "https://www.baidu.com"
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'lxml')
    div_tag = soup.select('div>a')
    print(div_tag[0].string)
    print(div_tag[0].text)

if __name__ == '__main__':
    url = "https://www.baidu.com"
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'lxml')
    div_tag = soup.select('form>input')
    print(div_tag[0]['name'])
    print(div_tag[0]['type'])

符号	描述
\W	匹配任何非单词字符。等价于'[^A-Za-z0-9_]'。
\w	匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。
\s	匹配任何空白字符，包括空格、制表符、换页符等等。
\S	匹配任何非空白字符。
\d	匹配一个数字字符。等价于 [0-9]。
\D	匹配一个非数字字符。等价于 [^0-9]。

import re
if __name__ == '__main__':
    str_val = 'kdd199ok98 a123 343'
    print(re.findall('\W', str_val))    # 匹配任何非单词字符
    print(re.findall('\w', str_val))    # 匹配任何单词字符
    print(re.findall('\S', str_val))    # 匹配任何非空白字符
    print(re.findall('\s', str_val))    # 匹配空白字符
    print(re.findall('\D', str_val))    # 匹配非数字
    print(re.findall('\d', str_val))    # 匹配数字

符号	描述
$	匹配输入字符串的结尾位置。
( )	标记一个子表达式的开始和结束位置。
*	匹配前面的子表达式零次或多次。
+	匹配前面的子表达式一次或多次。
.	匹配除换行符 \n 之外的任何单字符。
[	标记一个中括号表达式的开始。
?	匹配前面的子表达式零次或一次，或指明一个非贪婪限定符。
\	将下一个字符标记为或特殊字符、或原义字符、或向后引用。
^	匹配输入字符串的开始位置。
{n}	n 是一个非负整数。匹配确定的 n 次。
{n,}	n 是一个非负整数。至少匹配 n 次。
{n,m}	m 和 n 均为非负整数，其中 n <= m。最少匹配 n 次且最多匹配 m 次。

import re
if __name__ == '__main__':
    str_val = 'akdd1d199ok98 d123 3438'
    print(re.findall('8$', str_val))    # 匹配以 8 结尾的字符
    print(re.findall('^a', str_val))    # 匹配以 a 开头的字符
    print(re.findall('(d1)?', str_val))  # 匹配 d1 零次或一次
    print(re.findall('(d1)+', str_val))  # 匹配 d1 一次或多次
    print(re.findall('[ad]', str_val))   # 匹配字符集合 [ad]

from selenium import webdriver

if __name__ == '__main__':
    browser = webdriver.Chrome(executable_path='./chromedriver_mac64/chromedriver')
    browser.get('https://www.baidu.com')

方法	描述
`browser.maximize_window()`	最大化浏览器
`browser.current_url`	当前网页 url
`browser.get_cookie()`	当前网页用到的 cookie 信息
`browser.name`	当前浏览器驱动名称
`browser.title`	当前网页标题
`browser.page_source`	获取当前网页源代码
`browser.refresh()`	刷新当前网页
`browser.quit()`	关闭浏览器
`browser.close()`	关闭当前网页
`browser.back()`	返回上一页

from selenium import webdriver
from selenium.webdriver.common.by import By

if __name__ == '__main__':
    browser = webdriver.Chrome(executable_path='./chromedriver_mac64/chromedriver')
    browser.get('https://www.baidu.com')
    tag1 = browser.find_element(by=By.ID, value='form')
    print(tag1.get_attribute("class"))

from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By

if __name__ == '__main__':
    browser = webdriver.Chrome(executable_path='./chromedriver_mac64/chromedriver')
    browser.get('https://www.baidu.com')
    alink = browser.find_element(by=By.LINK_TEXT, value='图片')
    print(alink.get_attribute("href"))
    actions = ActionChains(browser)
    actions.click(alink).perform()

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
}
response = requests.get(url, headers=headers)

import time
import random

time.sleep(random.uniform(1, 3))  # 随机休眠 1 到 3 秒

try:
    response = requests.get(url, timeout=5)
    response.raise_for_status()
except Exception as e:
    print(f"请求失败：{e}")

Python 爬虫技术快速入门

1. 背景

2. Python 基础语法

2.1 变量

2.2 数据类型

2.2.1 数据类型详解

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2.2 类型转换

2.3 基础运算符

2.4 控制语句

2.4.1 if 语句

2.4.2 for 循环

2.4.3 while 语句

2.5 函数

2.6 模块导入

3. 网络请求与数据解析

3.1 requests 包

3.2 BeautifulSoup 数据解析

3.2.1 简单使用

3.2.2 查找标签

3.2.3 选择标签

3.2.4 提取内容和属性

4. 正则表达式

4.1 普通字符

4.2 元字符

5. Selenium 的基本使用

5.1 环境安装

5.1.1 安装 Selenium 模块

5.1.2 安装浏览器驱动程序

5.1.3 打开页面

5.2 常见 API

5.2.1 浏览器操作

5.2.2 查找标签

5.3 模拟鼠标操作

6. 爬虫最佳实践与注意事项

6.1 遵守 robots.txt 协议

6.2 设置合理的请求头

6.3 控制请求频率

6.4 异常处理

7. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具