Python 爬虫入门指南
想要入门 Python 爬虫首先需要解决四个问题:
- 熟悉 Python 编程
- 了解 HTML
- 了解网络爬虫的基本原理
- 学习使用 Python 爬虫库
一、什么是网络爬虫
什么是爬行器,或者说是网络数据收集,更好理解一些。它是用程序要求 Web 服务器提供的数据(HTML 表格),并对 HTML 进行解析,得到所需的数据。
归纳为四大步:
- 根据 URL 获取 HTML 数据
- 解析 HTML,获取目标信息
- 存储数据
- 重复第一步
二、Python 需要学到哪一步
如果你对 Python 一窍不通,那就必须学会 Python,这是一种很简单的语言。
编程语言的基本语法就是数据类型,数据结构,运算符,逻辑结构,函数,文件 IO,错误处理等等。
对于一个初学者来说,你根本不用学 Python 中稍微困难一点的类,多线程,模块等等。只要给新手看一本书,或者是网上的教程,花上十天半个月的时间,你就能对 Python 有个大概的了解,到时候你就可以开始尝试爬虫了!
当然,这需要你花十多天的时间去写代码,把语法逻辑背得滚瓜烂熟,把最重要的东西背得滚瓜烂熟。
课本上的选项更多,本人在研究过程中也有一些干货,在此与你们共享,前者较为系统丰富,后者较为简洁。
三、为什么要懂 HTML
前面说到过爬虫要爬取的数据藏在网页里面的 HTML 里面的数据,有点绕哈!
百科里是这样解释 HTML 的:
超文本标记语言(英语:HyperText Markup Language,简称:HTML)是一种用于创建网页的标准标记语言。HTML 是一种基础技术,常与 CSS、JavaScript 一起被众多网站用于设计网页、网页应用程序以及移动应用程序的用户界面。网页浏览器可以读取 HTML 文件,并将其渲染成可视化网页。HTML 描述了一个网站的结构语义随着线索的呈现,使之成为一种标记语言而非编程语言。
总结一下,HTML 是一种用于创建网页的标记语言,里面嵌入了文本、图像等数据,可以被浏览器读取,并渲染成我们看到的网页样子。
所以我们才会先从爬取 HTML,再解析数据,因为数据藏在 HTML 里。
学习 HTML 并不难,它并不是编程语言,你只需要熟悉它的标记规则,这里大致讲一下。
HTML 标记包含标签(及其属性)、基于字符的数据类型、字符引用和实体引用等几个关键部分。
HTML 标签是最常见的,通常成对出现,比如 <div> 与 </div>。
这些成对出现的标签中,第一个标签是开始标签,第二个标签是结束标签。两个标签之间为元素的内容(文本、图像等),有些标签没有内容,为空元素,如 <img>。
以下是一个经典的 Hello World 程序的例子:
<!DOCTYPE html>
<html>
<head>
<title>This is a title</title>
</head>
<body>
Hello world!
</body>
</html>
HTML 文档由嵌套的 HTML 元素构成。它们用 HTML 标签表示,包含于尖括号中。


