Python 爬虫入门指南：原理与基础实战

Python 爬虫入门指南

想要入门 Python 爬虫首先需要解决四个问题：

熟悉 Python 编程
了解 HTML
了解网络爬虫的基本原理
学习使用 Python 爬虫库

一、什么是网络爬虫

什么是爬行器，或者说是网络数据收集，更好理解一些。它是用程序要求 Web 服务器提供的数据（HTML 表格），并对 HTML 进行解析，得到所需的数据。

归纳为四大步：

根据 URL 获取 HTML 数据
解析 HTML，获取目标信息
存储数据
重复第一步

二、Python 需要学到哪一步

如果你对 Python 一窍不通，那就必须学会 Python，这是一种很简单的语言。

编程语言的基本语法就是数据类型，数据结构，运算符，逻辑结构，函数，文件 IO，错误处理等等。

对于一个初学者来说，你根本不用学 Python 中稍微困难一点的类，多线程，模块等等。只要给新手看一本书，或者是网上的教程，花上十天半个月的时间，你就能对 Python 有个大概的了解，到时候你就可以开始尝试爬虫了！

当然，这需要你花十多天的时间去写代码，把语法逻辑背得滚瓜烂熟，把最重要的东西背得滚瓜烂熟。

课本上的选项更多，本人在研究过程中也有一些干货，在此与你们共享，前者较为系统丰富，后者较为简洁。

三、为什么要懂 HTML

前面说到过爬虫要爬取的数据藏在网页里面的 HTML 里面的数据，有点绕哈！

百科里是这样解释 HTML 的：

超文本标记语言（英语：HyperText Markup Language，简称：HTML）是一种用于创建网页的标准标记语言。HTML 是一种基础技术，常与 CSS、JavaScript 一起被众多网站用于设计网页、网页应用程序以及移动应用程序的用户界面。网页浏览器可以读取 HTML 文件，并将其渲染成可视化网页。HTML 描述了一个网站的结构语义随着线索的呈现，使之成为一种标记语言而非编程语言。

总结一下，HTML 是一种用于创建网页的标记语言，里面嵌入了文本、图像等数据，可以被浏览器读取，并渲染成我们看到的网页样子。

所以我们才会先从爬取 HTML，再解析数据，因为数据藏在 HTML 里。

学习 HTML 并不难，它并不是编程语言，你只需要熟悉它的标记规则，这里大致讲一下。

HTML 标记包含标签（及其属性）、基于字符的数据类型、字符引用和实体引用等几个关键部分。

HTML 标签是最常见的，通常成对出现，比如 <div> 与 </div>。

这些成对出现的标签中，第一个标签是开始标签，第二个标签是结束标签。两个标签之间为元素的内容（文本、图像等），有些标签没有内容，为空元素，如 <img>。

以下是一个经典的 Hello World 程序的例子：

<!DOCTYPE html>
<html>
<head>
    <title>This is a title</title>
</head>
<body>
    Hello world!
</body>
</html>

HTML 文档由嵌套的 HTML 元素构成。它们用 HTML 标签表示，包含于尖括号中。

Python 爬虫入门指南：原理与基础实战