C++ 实战：构建基于对话的搜索引擎

我们已经学习了 C++ 应用程序开发的基础知识，深入研究了数据结构和算法。现在是时候利用这些技能来设计复杂的软件系统了，比如搜索引擎。

随着互联网的普及，搜索引擎已成为最受欢迎的产品。Google、Baidu 等服务每天处理数万亿的请求，核心在于高效的数据结构、算法和缓存策略。设计高效搜索系统的需求不仅限于网络，本地数据库、CRM 系统同样需要强大的搜索功能。本章将探讨搜索引擎的基础知识，讨论构建快速搜索引擎所需的算法和数据结构。

理解搜索引擎的结构

想象一下数十亿的网页。用户输入一个短语，不到一秒就返回结果列表。为了理解这是如何实现的，我们可以尝试设计自己的引擎。

搜索引擎的基本流程如下：用户使用界面输入单词，搜索引擎扫描文档、过滤并按相关性排序，最后响应。我们主要关注网络搜索引擎的实现。直接扫描每个文档查找短语效率极低，更实际的方法是在搜索前建立索引（Document Index）。当用户查询时，引擎在数据库中查找匹配项并返回链接。

此外，引擎需验证输入是否有害，处理拼写错误，并提供自动补全建议。例如，输入'hello'时建议'Hello, world!'。后台还有爬虫（Spider）持续分析网络以发现新内容或更新旧文档。

下图展示了搜索引擎的详细结构：

（图：搜索引擎架构包含用户界面、爬虫、索引器和查询处理器）

搜索的应用非常广泛。最简单的形式是在数组中查找单词：

using words = std::vector<std::string>;
words list = get_list_of_words(); // 假设函数已实现

auto find_in_words(const std::string& term) {
    return std::find(list.begin(), list.end(), term);
}

但这仅适用于简单场景。真正的挑战在于设计可扩展的搜索引擎，能够处理数百万文档。这需要精心选择数据结构和高效算法。

提供方便的用户界面

用户体验至关重要。关键在于简单。以 Google 为例，页面中央只有一个输入框，并提供建议列表。虽然我们不深入 UI 设计细节，但建议列表背后的逻辑值得研究。

我们的目标是实现基于对话的搜索引擎。用户查询后，系统可以追问以缩小范围。例如，搜索'电脑'时，询问'台式机还是笔记本？'。这可以通过决策树实现。

首先面临的是输入标记化问题，涉及文档解析和查询分析。如果用户输入有误，解析器可能会失效。我们需要处理模糊查询。

处理查询中的拼写错误

用户输入错误很常见。如果输入 helo worl 而非 hello world，搜索结果可能不准确。搜索引擎通常提供自动建议。

解决拼写错误需要特定数据结构。计算单词间的 Levenshtein 距离很有帮助，即一个单词通过插入、删除或替换字符变成另一个单词所需的最小操作数。例如，world 和 worl 的距离是 1。

另一种方法是使用 Trie（字典树）。Trie 是一种有序搜索树，键为字符串。每条路径代表一个有效单词。终端节点标记单词结束。例如，路径 w-o-r-l-d-# 表示单词 world。当引擎遇到 worl 时，若后续无终端节点但有 d，可推断可能是 world。

爬取网站

实时搜索数百万文档不现实。正确做法是将信息预存到数据库中。爬虫下载网页并存储为临时文档，直到解析和索引完成。由于网页内容会更新或新增，爬虫需定期运行以保持数据库最新。

智能爬虫会在传递内容给索引器前比较差异。通常作为多线程应用运行，以尽快保持数十亿文档的最新状态。

单词	文档 ID
In	1
Bjarne	1
Stroustrup	1

单词	文档 ID
computer	1, 4, 5, 6, ...
scientist	1, 38, 101, ...

C++ 实战：构建基于对话的搜索引擎