一篇最全Python 爬虫超详细讲解(零基础入门,适合小白)

一篇最全Python 爬虫超详细讲解(零基础入门,适合小白)

大家好!我是 Grok,由 xAI 构建。今天我们来聊聊 Python 爬虫。作为一个零基础教程,我会从最简单的地方开始,一步步带你入门。爬虫(Web Scraping)就是用程序自动从网站上抓取数据的工具,比如下载图片、收集新闻、分析价格等。为什么学?因为它超级实用,能帮你自动化很多重复工作,比如监控电商价格或收集研究数据。

注意:爬虫要遵守法律和道德!不要爬取受保护的数据(如个人信息),尊重 robots.txt 协议,避免高频请求导致网站崩溃。否则可能被封 IP 或面临法律风险。

这个教程基于 2026 年最新实践(Python 3.12+),结合了网络上热门资源(如 Bilibili 尚硅谷教程、知乎文章等)。我们会从基础到进阶,包含代码示例。准备好你的电脑,我们开始吧!

第一部分:准备工作(零基础起步)
  1. 安装 Python
    • 下载官网最新版(https://www.python.org/downloads/),推荐 Python 3.12 或更高。Windows/Mac/Linux 都支持
    • 安装时勾选“Add Python to PATH”,便于命令行使用。
    • 验证:打开命令提示符(Win: cmd;Mac: Terminal),输入 python --version,看到版本号就 OK。
  2. 安装代码编辑器
    • 推荐 VS Code(免费,轻量):下载 https://code.visualstudio.com/,安装 Python 扩展。
    • 或者 PyCharm Community Edition(专业 IDE):https://www.jetbrains.com/pycharm/download/。
  3. 安装爬虫常用库(用 pip,Python 自带包管理器):
    • 解释:
      • requests:发送 HTTP 请求,模拟浏览器访问网站。
      • beautifulsoup4(简称 bs4):解析 HTML,提取数据。
      • lxml:bs4 的高效解析器。
      • selenium:处理动态页面(如 JavaScript 加载)。
      • scrapy:专业爬虫框架。
  4. 测试环境
    • 运行:命令行 python test.py,看到输出就成功。

新建一个 .py 文件(如 test.py),写:

print("Hello, 爬虫世界!")

打开命令行,输入:

pip install requests beautifulsoup4 lxml selenium scrapy 
第二部分:爬虫基础知识

爬虫流程(核心三步):

  1. 发送请求:用 requests 获取网页内容。
  2. 解析数据:用 bs4 或 xpath 提取有用信息。
  3. 保存数据:存到文件、数据库或 Excel。

HTTP 基础(小白必知):

  • GET:获取数据(最常见)。
  • POST:提交数据(如登录)。
  • Headers:模拟浏览器(如 User-Agent)。
  • Cookies:保持登录状态。

反爬虫常见问题

  • 网站检测机器人:用假 User-Agent 或代理 IP。
  • 动态加载:用 Selenium 模拟浏览器。
第三部分:简单爬虫实战(入门示例)

我们爬取一个简单网站:百度首页的标题和链接。作为小白第一爬,超级简单!

    • 运行:保存为 baidu_crawler.py,命令行 python baidu_crawler.py
    • 输出:页面标题和链接列表。
  1. 解释代码
    • requests.get():获取网页源代码。
    • BeautifulSoup:像“汤”一样搅拌 HTML,轻松找标签(如 find_all("a") 找所有超链接)。
    • 如果网站用 JavaScript 加载,用 Selenium 替换 requests(见进阶)。
  2. 小练习:改成爬取豆瓣电影 Top 250 的电影名(URL: https://yingjuxia.com/archives/8406)。提示:找 class="title" 的标签。

代码示例(用 requests + bs4):

import requests from bs4 import BeautifulSoup # 第一步:发送请求 url ="https://www.baidu.com"# 目标网址 headers ={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"}# 模拟浏览器,避开简单反爬 response = requests.get(url, headers=headers)# 检查响应if response.status_code ==200:print("请求成功!")else:print("请求失败,状态码:", response.status_code) exit()# 退出程序# 第二步:解析 HTML soup = BeautifulSoup(response.text,"lxml")# 用 lxml 解析器# 提取标题 title = soup.title.string print("页面标题:", title)# 提取所有链接 links = soup.find_all("a")# 找所有 <a> 标签for link in links: href = link.get("href")# 获取 href 属性 text = link.string # 获取文本if text:# 过滤空文本print(f"链接文本:{text},URL:{href}")# 第三步:保存数据(可选,存到文件)withopen("baidu_links.txt","w", encoding="utf-8")as f:for link in links:if link.string: f.write(f"{link.string}: {link.get('href')}\n")print("数据已保存到 baidu_links.txt")
第四部分:进阶技巧(从小白到高手)
  1. 处理动态页面(JavaScript 渲染)
    • 用 Selenium 模拟浏览器。
    • 安装 ChromeDriver(匹配你的 Chrome 版本):https://googlechromelabs.github.io/chrome-for-testing/。
    • 优势:能处理登录、点击等交互。
  2. XPath 解析(更精确提取):
    • 用 lxml 的 etree。
    • XPath 语法://tag 找所有 tag;@attr 找属性。
  3. 反爬虫应对
    • 延迟请求:import time; time.sleep(2) 每请求睡 2 秒。
    • 验证码:用 OCR 库如 pytesseract 识别简单验证码。
  4. 数据存储
    • 数据库:SQLite 或 MySQL(用 sqlite3 或 pymysql)。
  5. Scrapy 框架(专业级)
    • 安装后,创建项目:scrapy startproject myspider
    • 运行:scrapy crawl example -o output.json
    • 优势:内置调度、管道、去重,适合大项目。

示例 Spider:

import scrapy classMySpider(scrapy.Spider): name ="example" start_urls =["https://www.example.com"]defparse(self, response): titles = response.xpath('//h1/text()').getall()yield{"title": titles}

CSV:用 pandas。

import pandas as pd data =[{"name":"Alice","age":25}] df = pd.DataFrame(data) df.to_csv("data.csv", index=False)

代理 IP:用免费/付费代理池,避免 IP 被封。

proxies ={"http":"http://your_proxy:port"} response = requests.get(url, proxies=proxies)

User-Agent 轮换:用 fake_useragent 库随机 UA。

pip install fake_useragent from fake_useragent import UserAgent ua = UserAgent() headers ={"User-Agent": ua.random}

示例:

from lxml import etree html = etree.HTML(response.text)# 解析 titles = html.xpath('//h1/text()')# XPath 表达式:所有 h1 标签的文本print(titles)

示例代码:

from selenium import webdriver from selenium.webdriver.chrome.service import Service from selenium.webdriver.common.by import By # 配置 ChromeDriver 路径 service = Service("path/to/chromedriver.exe")# 替换成你的路径 driver = webdriver.Chrome(service=service) url ="https://www.example.com"# 动态网站 driver.get(url)# 找元素(用 XPath 或 CSS) elements = driver.find_elements(By.CSS_SELECTOR,"div.classname")for elem in elements:print(elem.text) driver.quit()# 关闭浏览器
第五部分:常见问题与调试
  1. 请求失败(403/429):加 headers 和 proxies;检查 URL。
  2. 解析出错:打印 response.text 看源代码;用浏览器开发者工具(F12)找标签。
  3. 中文乱码:加 encoding="utf-8"
  4. 网站变化:爬虫易失效,定期维护。
  5. 法律风险:只爬公开数据;参考 robots.txt(URL/robots.txt)。
第六部分:资源推荐(继续学习)

恭喜!你已入门 Python 爬虫!多练多调试,很快就能爬复杂网站。遇到问题,欢迎问我~ 🚀 如果想加深某个部分(如 Scrapy 实战),告诉我!

Read more

python 多版本管理(pyenv)

上篇文章提到了uv 可以进行 pip 包管理和 虚拟环境构建,其实,对于我们来说,还有一个需求,就是多个python环境进行管理,刚好找了下,发现了这个pyenv工具。话不多少,直接开始。         pyenv(Windows 下为pyenv-win)是Python 版本管理神器,核心解决「多 Python 版本共存、版本冲突、环境不一致」的痛点,让你在一台电脑上无痛切换不同 Python 版本,不用手动改环境变量、卸载重装,是 Python 开发的必备工具。         一、pyenv可以干什么事情? 1.1 多版本 Python 共存(最核心)         手动管理多个 Python 版本时,你需要反复修改环境变量、记住不同版本的安装路径,极易混乱;而 pyenv 能:

By Ne0inhk
Python异步编程:深入理解asyncio核心原理与实战

Python异步编程:深入理解asyncio核心原理与实战

本文深入剖析Python异步编程核心库asyncio的工作原理,从事件循环、协程、Future到Task的完整技术栈。通过真实性能对比数据、企业级案例和5个架构流程图,全面解析async/await底层机制。涵盖异步编程最佳实践、性能优化技巧和故障排查方案,帮助开发者掌握高并发程序设计精髓,提升I/O密集型应用性能数倍。 1 异步编程:为什么它是Python高性能的关键 在我13年的Python开发经验中,异步编程是性能优化的分水岭。记得曾经处理一个需要调用10个外部API的任务,同步版本需要20多秒,而改用异步后仅需2秒——这种10倍性能提升让我彻底认识到异步编程的价值。 1.1 同步 vs 异步:直观对比 想象你在餐厅点餐的场景: 同步:点完第一个菜后站着等厨师做完,再点第二个菜,效率极低 异步:点完所有菜后找座位等待,厨师并行制作,服务员送餐时通知你 这就是异步编程的核心优势:避免不必要的等待,充分利用等待时间执行其他任务。 import time import asyncio   # 同步版本:顺序执行,总耗时=各任务耗时之和 def sync_

By Ne0inhk
【办公类-119-02】20260201三个园区“国旗下讲话” 按班级组合docx模板(AI+excel+python)

【办公类-119-02】20260201三个园区“国旗下讲话” 按班级组合docx模板(AI+excel+python)

背景需求 上学期国旗下讲话,按照园区合并成一个WORD(里面有22张表格),并发布成共享编辑模式 【办公类-119-01】20250824一分园“国旗下讲话”批量模板(托班小班4周轮流1次)https://mp.ZEEKLOG.net/mp_blog/creation/editor/150716284 但是实际操作中,出现问题 1、网络数据遗失: 10月我在网络共同编辑里面写好内容,插入照片,但是1月再看,内容不见了,只能重新做 2、填写不便: 部分老师说:不会用共享编辑,搭档就单独发了WORD合并版本,但是里面有22个表格,班主任需要翻页找到自己班级的页面,填写内容,再翻页4页或6页,才能找到自己的内容。很多老师只能删除非自己班级的页面内容,再填写3、 3、照片移位: 一个格子插入两张照片,照片的插入样式多样(嵌入型,上下环绕、四周环绕),照片大量移位。打印时需要检查和调整位置,确保表格内容在一页上。

By Ne0inhk

什么是Python中的库以及如何导入使用库

一、引言 Python被誉为“胶水语言”,不仅语法简洁,更重要的是它拥有极其丰富的生态系统。无论是做数据分析、Web开发、人工智能,还是自动化脚本,你几乎总能找到一个现成的工具来帮你完成任务——这些工具,就是我们常说的 “库(Library)”。 但很多初学者在刚接触Python时,常常对“库”“模块”“包”这些概念感到困惑,也不知道该如何正确地导入和使用它们。本文将从零开始,带你搞清楚: * 什么是Python中的库? * 库有哪些类型? * 如何导入并使用它们? * 如何安装第三方库? 二、什么是Python中的库? 简单来说,库就是别人(或你自己)写好的代码集合,封装了特定功能,你可以直接调用,而无需从头编写。 比如: * 想发送一个HTTP请求?不用自己实现TCP协议,直接用 requests 库。 * 想处理Excel表格?用 pandas 几行代码搞定。 * 想生成随机数?标准库里的 random

By Ne0inhk