一篇最全Python 爬虫超详细讲解(零基础入门,适合小白)

一篇最全Python 爬虫超详细讲解(零基础入门,适合小白)

爬虫是指通过编程自动从网页上获取信息的技术.想象你平时打开网页,右键点击 “查看源代码”,那些你看到的HTML代码就是网页的结构,而爬虫就像一位帮你阅读这些网页内容的“机器人”.

本文将详细讲解如何从零开始编写一个Python爬虫,即使是完全没接触过编程的朋友也能理解.

这里插播一条粉丝福利,如果你正在学习Python或者有计划学习Python,想要突破自我,对未来十分迷茫的,可以点击这里获取最新的Python学习资料和学习路线规划(免费分享,记得关注)  

一、爬虫的基本流程

  1. 发送请求:爬虫向目标网页发送请求,获取网页内容.
  2. 解析网页:从返回的网页内容中提取你需要的信息.
  3. 保存数据:将提取到的信息保存到文件或数据库中,以便后续分析.

二、常用爬虫库

在Python中,有两个非常流行的库用于爬虫开发:

  • requests:用于发送网络请求,获取网页内容.
  • BeautifulSoup:用于解析网页内容,提取需要的数据.
1. 安装库

首先,你需要安装这两个库.在命令行中执行以下命令:

pip install requests beautifulsoup4 -i https://pypi.tuna.tsinghua.edu.cn/simple 

三、简单爬虫示例

接下来,我们会编写一个简单的爬虫,从一个网页上获取数据.

1. 获取网页内容

第一步是使用 requests 库来获取网页的内容.我们以获取百度首页为例.

import requests # 发送请求获取网页内容 url = 'https://www.baidu.com' response = requests.get(url) # 打印网页内容 print(response.text) 
解释:
  • requests.get(url) 用于向指定网址发送请求并获取网页内容.
  • response.text 返回网页的HTML代码.

运行后,你会看到大量的HTML代码,这就是百度首页的内容.

2. 解析网页内容

获取网页内容后,我们需要用 BeautifulSoup 库来解析HTML,提取我们需要的信息.接下来我们解析百度首页的标题.

from bs4 import BeautifulSoup # 解析网页内容 soup = BeautifulSoup(response.text, 'html.parser') # 获取标题 title = soup.title.text print('网页标题:', title) 
解释:
  • BeautifulSoup(response.text, 'html.parser') 用于解析HTML内容.
  • soup.title.text 返回网页的标题.

输出:

makefile 网页标题: 百度一下,你就知道 
3. 提取更多信息

让我们继续提取网页中的链接(<a>标签中的 href 属性).这非常有用,例如你想抓取某个网站上的所有文章链接.

# 获取所有的<a>标签 links = soup.find_all('a') # 打印所有链接 for link in links:     href = link.get('href')     print(href) 
解释:
  • soup.find_all('a') 用于获取网页中的所有链接.
  • link.get('href') 获取每个链接的 href 属性,也就是网址.

四、爬虫的分类

1. 简单爬虫(静态网页)

如果网页是静态的,所有的数据直接在HTML代码中呈现,这种网页最容易爬取.以上示例就是一个典型的静态网页爬虫.

2. 动态爬虫(处理JavaScript生成的内容)

有些网页的数据不是直接在HTML中,而是通过JavaScript动态生成的.这类网页需要更复杂的处理方式,通常我们会使用 Selenium 这样的库来模拟浏览器操作.

安装 Selenium:
pip install selenium -i https://pypi.tuna.tsinghua.edu.cn/simple 

Selenium 可以像真实的用户一样与网页交互,甚至可以点击按钮、滚动页面等.比如要爬取动态生成的数据,我们可以使用Selenium来加载网页.

示例:
from selenium import webdriver # 设置浏览器驱动路径 driver = webdriver.Chrome() # 打开网页 driver.get('https://www.example.com') # 获取网页标题 print(driver.title) # 关闭浏览器 driver.quit() 
3. 爬虫框架(Scrapy)

当你需要大规模爬取数据时,可以使用专门的爬虫框架——Scrapy.Scrapy 是一个强大的爬虫框架,具有异步、高效的特点,适合用于构建复杂的爬虫.

安装 Scrapy:
pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple 

五、爬虫常见问题及解决方案

1. 网页反爬机制

有些网站不允许爬虫访问,通常会通过检测请求头或IP地址来防止爬虫访问.为了绕过这种限制,我们可以伪装成正常用户.

解决方法:添加请求头
headers = {     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36' } response = requests.get(url, headers=headers) 
2. 延迟访问

频繁访问某个网站可能会触发反爬机制,我们可以通过设置延迟避免这种问题.

import time # 延迟2秒后发送下一个请求 time.sleep(2) 
3. 代理IP

如果网站通过检测IP地址限制访问,我们可以使用代理IP.

proxies = {     'http': 'http://10.10.1.10:3128',     'https': 'https://10.10.1.10:1080', } response = requests.get(url, proxies=proxies) 

六、保存数据

当我们提取到需要的信息后,通常需要将数据保存起来,常见的保存方式有保存到CSV文件数据库.

1. 保存到CSV文件
import csv # 保存数据到CSV文件 with open('data.csv', 'w', newline='', encoding='utf-8') as file:     writer = csv.writer(file)     writer.writerow(['标题', '链接'])  # 写入表头     for link in links:         writer.writerow([link.text, link.get('href')]) 
2. 保存到数据库

可以使用 SQLite 或其他数据库,将数据保存到数据库中.

import sqlite3 # 连接数据库(如果不存在会自动创建) conn = sqlite3.connect('data.db') cursor = conn.cursor() # 创建表 cursor.execute('CREATE TABLE IF NOT EXISTS links (title TEXT, href TEXT)') # 插入数据 for link in links:     cursor.execute('INSERT INTO links (title, href) VALUES (?, ?)', (link.text, link.get('href'))) # 提交事务并关闭连接 conn.commit() conn.close() 

七、总结

  1. 爬虫的基本流程:发送请求,解析网页,提取并保存数据.
  2. 常用库requests 用于发送请求,BeautifulSoup 用于解析HTML.
  3. 进阶技术:处理动态网页需要用到 Selenium,而大规模爬取可以使用 Scrapy 框架.
  4. 应对反爬:通过伪装请求头、设置延迟以及使用代理IP等方式绕过反爬机制.

最后,我精心筹备了一份全面的Python学习大礼包,完全免费分享给每一位渴望成长、希望突破自我现状却略感迷茫的朋友。无论您是编程新手还是希望深化技能的开发者,都欢迎加入我们的学习之旅,共同交流进步!

🌟 学习大礼包包含内容:

Python全领域学习路线图:一目了然,指引您从基础到进阶,再到专业领域的每一步学习路径,明确各方向的核心知识点。

超百节Python精品视频课程:涵盖Python编程的必备基础知识、高效爬虫技术、以及深入的数据分析技能,让您技能全面升级。

实战案例集锦:精选超过100个实战项目案例,从理论到实践,让您在解决实际问题的过程中,深化理解,提升编程能力。

华为独家Python漫画教程:创新学习方式,以轻松幽默的漫画形式,让您随时随地,利用碎片时间也能高效学习Python。

互联网企业Python面试真题集:精选历年知名互联网企业面试真题,助您提前备战,面试准备更充分,职场晋升更顺利。

👉 立即领取方式:只需【点击这里】,即刻解锁您的Python学习新篇章!让我们携手并进,在编程的海洋里探索无限可能

 

Read more

Git下载GitHub项目卡住?使用清华镜像代理地址快速获取

Git下载GitHub项目卡住?使用清华镜像代理地址快速获取 在人工智能与深度学习迅猛发展的今天,开发者几乎每天都在与开源项目打交道。无论是研究新算法、复现论文,还是搭建生产环境,我们常常需要从 GitHub 上克隆大型代码仓库——比如 TensorFlow、PyTorch 或 Hugging Face 的生态工具。然而,一个令人头疼的现实是:在国内直接通过 git clone 下载这些项目时,动辄卡在“Receiving objects”阶段,甚至连接超时失败。 这不仅浪费时间,更严重影响开发节奏。尤其是在 CI/CD 流水线中,一次拉取失败可能导致整个构建流程中断。你有没有试过为了克隆一个项目等上半小时,最后却以 RPC failed; curl 18 transfer closed 告终? 其实,这个问题早有成熟解决方案:利用国内高校提供的开源镜像服务,将 GitHub 请求重定向至高速本地节点。

By Ne0inhk

GLM-4-9B-Chat-1M开源优势:Apache 2.0代码+OpenRAIL-M权重

GLM-4-9B-Chat-1M开源优势:Apache 2.0代码+OpenRAIL-M权重 1. 它到底能做什么?一句话说清长文本处理的新可能 你有没有遇到过这样的场景:手头有一份300页的上市公司财报PDF,需要快速找出其中关于“海外并购”和“研发投入”的所有关键条款;或者要从一份200页的法律合同里,比对两版修订稿的差异点;又或者想让AI通读整本《三体》原著,再回答“叶文洁在红岸基地第一次发送信号的具体时间与动机分析”。 过去,这类任务要么靠人工逐页翻查,耗时数小时;要么用传统大模型分段喂入,结果上下文断裂、逻辑错乱、关键信息丢失。而GLM-4-9B-Chat-1M的出现,直接把这个问题变成了一个“打开即用”的操作——它不只支持长文本,而是真正意义上一次吞下200万汉字并保持完整理解力的对话模型。 这不是参数堆砌的噱头,也不是靠牺牲精度换来的长度。它用90亿参数的稠密架构,在单张消费级显卡上跑出100%的1M长度needle-in-haystack准确率,同时保留了多轮对话、函数调用、代码执行等企业级能力。你可以把它理解成一位“超记忆型资深助理”:记性极好、反应快、会写

By Ne0inhk
Git 到底是干啥的?零基础小白听完都懂了并且轻松驾驭它

Git 到底是干啥的?零基础小白听完都懂了并且轻松驾驭它

git,通俗的来说就是一种用来多人文件版本合作的工具,但是对一些非程序员的项目小白或者没有程序基础的但是想要入行做程序员的人来说,完完全全理解起来稍微有点困难。这篇文章不像很多文章一样是枯涩的码字教学。现在,我们就用最通俗易懂的方式,让你从零基础理解他,并且使用他。这种教学方法不是把你当白痴的教学方法,反而是让你快速入门深刻理解它,并记住它的教学方法。因为可能说得比较详细,篇幅较长,还得请你耐心的把他看完。 一、git的作用 1、git的版本控制 文件永远不会只有一个版本,这句话我们似乎用亲身经历证明过。你是否有过以下经历👇 📘论文会有“终稿v1、终稿v2、终稿最终版”、 ✍设计稿会有“改版A、改版B、改版C”、 🧺甚至自己写的文章也会来回改十几遍。 🥚更不用说单独只通过一个本地夹操刀一个大型项目了 突然有一天你觉得你的论文、设计稿、文章、项目某一个节点开始脱离了原本的方向或者发生了一些错误,但是你已经对其进行多处修改了,单独再修改不仅费事废经历,还容易发生遗漏。 你或许信誓旦旦的告诉我,你可以这样做。。。👇 论文_最终v1.docx 论文_

By Ne0inhk
手把手教你GitHub访问加速的8种姿势(亲测有效版)

手把手教你GitHub访问加速的8种姿势(亲测有效版)

文章目录 * 一、为什么我的GitHub比蜗牛还慢?(真实原因大揭秘) * 二、8大加速方案实测对比(附成功率评分) * 方案1:镜像站大法(成功率⭐️⭐️⭐️⭐️) * 方案2:Hosts文件改造术(成功率⭐️⭐️⭐️⭐️⭐️) * 方案3:SSH协议加速(成功率⭐️⭐️⭐️) * 方案4:Git配置全局代理(程序员必备) * 方案5:油猴脚本加持(小白神器) * 方案6:CDN加速黑科技 * 方案7:DevSidecar工具(一键加速) * 方案8:终极方案——Gitee中转 * 三、各方案适用场景对比表 * 四、个人私藏加速方案(2023最新) * 五、冷知识:GitHub官方加速通道 * 六、常见问题解答 一、为什么我的GitHub比蜗牛还慢?(真实原因大揭秘) 每次打开GitHub都要转圈半小时?clone代码速度只有10kb/s?这其实是典型的"网络迷航症"

By Ne0inhk