Web 数据管理：爬虫、网页分析与文本处理技术详解

Web 数据管理涵盖网络爬虫构建、网页分析解析、数据存储与预处理及文本图像特征表示等核心内容。重点涉及爬虫分类、反爬策略应对（如验证码、懒加载）、包装器抽取方法（基于分界符或树路径）。文本处理流程包括分词（HMM、BPE）、向量化（TF-IDF、Word2Vec、Doc2Vec）及主题模型（LSA、LDA）。此外还包含文本分类算法（fastText、TextCNN）及 Web 图片数据的颜色、纹理、形状特征提取技术。适合计算机专业学生复习参考。

DataScient发布于 2026/4/10更新于 2026/7/2039 浏览

文章配图

第二章网络爬虫

爬虫的三个任务：

输入 URL，爬取网页内容（HTML）
网页解析（从 HTML 中获得想要的东西）
数据存储

爬虫基础知识

爬虫定义：一种自动获取网页内容的程序，通过解析 HTML 源码获得想要的内容。
**判重技术（URL 判重、文档判重）：**1.文档指纹：每一个文档生成一个指纹用来快速判重吗，例如 MinHash，SimHash 算法；2. URL 判重：建立散列存放访问过的网址。例如 MD5 等散列函数。
**爬虫必须具有的功能：**礼貌性（显式和隐式礼貌、robots 协议）、鲁棒性、性能和效率、分布式、新鲜度、功能可拓展性

**爬虫过程：**1.选择一个或多个 URL 作为 seed url；2.获取 URL 中的文档内容；3.解析文档内容，判重后选择性保留；4.提取文档中指向其他网页的 URL，在判重后选择性放入队列中；5.从队列中持续选择 URL 并重复 2.3.4 步骤。

文章配图

**性能和效率：**性能考虑充分利用系统资源的程度；效率考虑是否优先爬取'有用的网页'。爬取网页的方式分为 BFS 和 DFS。
**BFS 爬取网页优于 DFS：**可以在有限时间内爬取更重要的网页（我们认为一个网站的首页最重要）。
**DFS 爬取网页优于 BFS：**避免握手次数太多，提升性能（一个网站一般只用一个服务器搭建，如果一直在该网站深度爬取，则只要握手一次）。
**分布式（意味着多台机器一起爬虫，那他们的哈希表就要共享）带来的问题：**1、分布式后有很多机器，用于判重的哈希表太大一台服务器放不下；2、每台下载服务器都要维护一张哈希表，通信就成了分布式系统的瓶颈。
**分布式问题解决：**1、明确下载服务器的分工，看到某个 URL 就知道要交给哪台服务器执行；2、批量处理，减少通信次数。