Web 数据管理期末复习指南：爬虫、分析与文本处理

第二章网络爬虫

爬虫的核心任务包括三个步骤：输入 URL 获取网页内容（HTML）、解析 HTML 提取目标信息、以及数据存储。

2.1 爬虫基础知识

定义与功能 爬虫是一种自动获取网页内容的程序，通过解析 HTML 源码获得所需信息。一个成熟的爬虫系统必须具备以下功能：礼貌性（遵循 Robots 协议）、鲁棒性、性能与效率、分布式支持、新鲜度保障及功能可扩展性。

工作流程

选择种子 URL（Seed URL）；
获取文档内容；
解析并判重，选择性保留；
提取新链接，判重后加入队列；
循环执行上述步骤。

爬取策略

BFS（广度优先）：适合在有限时间内抓取重要页面（如首页），但握手次数较多。
DFS（深度优先）：适合单站深度挖掘，减少握手次数，提升性能。
分布式问题：多台机器共享哈希表判重时，通信可能成为瓶颈。解决方案包括明确服务器分工和批量处理以减少通信。

2.2 爬虫分类

根据应用场景可分为：基于整个 Web 的信息采集（如门户搜索引擎）、增量式采集、用户个性化采集以及主题 Web 信息采集。

2.3 开源工具 Nutch

Nutch 是一个整合 Web 信息采集的开源工具，特点包括多线程、宽度优先遍历、遵循机器人协议、采用 Socket 连接、边爬取边解析以及页面评分机制。

第三章网页分析

网页分析主要基于 HTML 文档格式，从不同角度抽取信息：将 HTML 视为字符流（正则表达式）、树结构（DOM 模型）或使用外部工具。

3.1 正则表达式

正则表达式是字符串操作的逻辑公式，用于定义过滤规则。其特点是匹配速度快，但表达能力仅限于正规文法。适用于信噪比要求不高的场景，但在需要去噪或网页自动分类时，建议使用 DOM 树。

3.2 DOM 模型

DOM（文档对象模型）将 HTML 转化为树状结构，支持随机访问。相比正则表达式，DOM 解析速度较慢，但表达能力相当于上下文无关文法，更适合复杂的网页结构处理。常用库包括 jsoup、HTMLParser 等。

3.3 Beautiful Soup 工具

Beautiful Soup 提供了解析文档的工具箱，支持多种解析器：

html.parser：内置，速度慢但通用。
HTML5Lib：处理不规范 HTML。
lxml：效率高，适用于 HTML 和 XML 解析。

优缺点：操作简单方便，但会加载整个文档树，消耗资源较多。

3.4 Scrapy 框架

Scrapy 是一个快速、高层次的爬虫框架，实现了底层多线程请求和异步网络通讯。核心组件包括引擎、调度器、下载器、爬虫、管道及中间件。

开发四步走：

新建项目（scrapygenspider <name> <domain>）；
定义 Items（目标数据）；
编写 Spider（爬取逻辑）；
创建 Pipeline（存储处理）。

用户只需关注 Item 和 Spider，其余部分由框架封装。

数据存储

CSV/JSON/XML：结构化文件存储，JSON 可读性好且交换灵活。
数据库：SQLite（轻量级）、MySQL、MongoDB。
Pickle：Python 对象序列化，二进制格式，不可读但高效。

Meta 字典：用于跨页面传递数据，通过 Request 的 meta 参数传入 Response。

Web 数据管理期末复习指南：爬虫、分析与文本处理

第二章 网络爬虫

2.1 爬虫基础知识

2.2 爬虫分类

2.3 开源工具 Nutch

第三章 网页分析

3.1 正则表达式

3.2 DOM 模型

3.3 Beautiful Soup 工具

3.4 Scrapy 框架

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.5 工具比较

3.6 元搜索引擎

第四章 爬虫与网站的博弈

4.1 Robot 协议

4.2 User-agent

4.3 IP 屏蔽

4.4 登录与 Cookie 验证

4.5 模拟浏览器

第五章 数据抽取与包装器

5.1 Web 信息抽取

5.2 Web 数据抽取

5.3 包装器

第六章 包装器页面抽取方法

6.1 网页分类

6.2 多记录数据型页面抽取

6.3 单记录数据型页面抽取

6.4 单文档型页面抽取

第七章 Web 数据存储

第八章 Web 数据预处理

8.1 结构化数据处理

8.2 非结构化数据处理

第九章 文本预处理

9.1 基于词典的分词

9.2 基于统计的分词

9.2.1 基于 HMM 的分词

第十章 文本表示

10.1 文本向量化

10.2 隐语义分析 LSA

10.3 主题模型

10.4 文档哈希

第十一章 语言模型

11.1 n-gram 语言模型

11.2 神经网络语言模型 NNLM

第十二章 词嵌入和文档嵌入

第十三章 文本分类

13.1 文本分类

13.2 fastText

13.3 TextCNN

13.4 Token 化

第十四章 Web 图片数据

14.1 Web 图像

14.2 图像特征

14.3 颜色特征

14.4 纹理特征

14.5 形状特征

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

第二章网络爬虫

第三章网页分析

第四章爬虫与网站的博弈

第五章数据抽取与包装器

第六章包装器页面抽取方法

第九章文本预处理

第十章文本表示

第十一章语言模型

第十二章词嵌入和文档嵌入

第十三章文本分类