《C/C+++ Boost 轻量级搜索引擎实战：架构流程、技术栈与工程落地指南——构造正/倒排索引（中篇）》

Ne0inhk

22 Mar 2026 — 7 min read

前引：这是一个聚焦基础搜索引擎核心工作流的实操项目，基于 C/C++ 技术生态落地：从全网爬虫抓取网页资源，到服务器端完成 “去标签 - 数据清洗 - 索引构建” 的预处理，再通过 HTTP 服务接收客户端请求、检索索引并拼接结果页返回 —— 完整覆盖了轻量级搜索引擎的端到端逻辑。项目采用 C++11、STL、Boost 等核心技术栈，搭配 CentOS 7 云服务器 + GCC 编译环境（或 VS 系列开发工具）部署，既适配后端工程的性能需求，也能通过可选的前端技术（HTML5/JS 等）优化用户交互，是理解搜索引擎底层原理与 C++ 工程实践的典型案例

【一】Jieba分词工具

我们在对使用倒排索引的时候需要用到“关键词”，这个关键词由每个.html文档的标题和内容而来，因此就涉及到分词，所以我们使用 cppjieba 分词工具来完成，下面是上传：

如果需要使用到cppjieba分词工具，可以在gitcode上面直接搜索使用Git命令上传，我这里是本地上传到服务器：

然后对 cppjieba/include/cppjieba和cppjieba/dict分别建立软链接：头文件和词库

我们把cppjieba移动到上级目录，然后更新一下这两个软链接：

【二】正/倒排索引结构设计

//正排结构 typedef struct Forward_index { //文档内容 std::string title; std::string source; std::string chain; //对应正排ID uint64_t doc_id; }Forwardindex; //倒排结构 typedef struct Inverted_index { //对应正排ID int doc_id; //涉及到的关键字 std::string word; //权重 int weight; }Invertedindex;

正排：根据ID映射对应的文档（标题、内容、URL），这个ID刚好利用vector的下标！

倒排：根据“关键字”映射对应的ID，所以利用unordered_map快速的搜索特性

//正排存储 std::vector<Forwardindex> Forward; typedef std::vector<Invertedindex> Stock_Inverted; //倒排存储 std::unordered_map<std::string,Stock_Inverted> Inverted;

【三】关键函数设计

（1）由文档ID返回文档内容

含义：即正排外部的实现，根据ID返回vector中对应的具体内容

//根据ID返回文档内容 Forwardindex* GetForward_index(const long long& id) { if(id>=Forward.size()) { std::cerr<<"GetForward_index is errno"<<std::endl; return nullptr; } return &Forward[id]; }

（2）由关键字返回倒排拉链

含义：倒排外部实现，根据“关键字”返回对应的ID，即返回对应的vector<Invertedindex>成员

解释：每个关键词涉及到的ID肯定不止一个，所以需要vector<Invertedindex>代表一个关键字涉及到的所有文档

//根据关键字返回倒排拉链 Stock_Inverted* GetInverted_index(const std::string word) { auto it =Inverted.find(word); if(it == Inverted.end()) { std::cerr<<"GetInverted_index is errno"<<std::endl; return {}; } return &it->second; }

（3）说明

现在我们已经有了给外部的接口：由ID返回文档内容、由关键词返回文档ID

那么接下来就是填变量、建立索引关系：

//正排存储 std::vector<Forwardindex> Forward; typedef std::vector<Invertedindex> Stock_Inverted; //倒排存储 std::unordered_map<std::string,Stock_Inverted> Inverted;

（4）建立索引

原理：利用上一篇文章完成的数据清洗，最终每个.html文档内容都被输出到了data_clean.txt中

我们先利用getline按行读取（也就是按单个文档读取，因为data_clean.txt中也是按行写的）到 line变量里面，这样就拿到了单个文档的内容，因此while就是拿取data_clean.txt的全部文档内容！

建索引也就是同时建立正排和倒排的内容，也就是填vector和Unordered_map的操作！

//建立索引 bool Buildindex(const std::string &input) { std::ifstream in(input,std::ios::in | std::ios::binary); if(!in.is_open()) { std::cerr<<"Buildindex is errno"<<std::endl; return false; } //存单个读取文档内容 std::string line; while(std::getline(in,line)) { //正排 Forwardindex * doc = BUild_Forward_Index(line); printf("正在建立索引:%lld\ntitle:%s\nchain:%s\n",doc->doc_id,doc->title.c_str(),doc->chain.c_str()); if(doc==nullptr)continue; //倒排 Build_Inverted_Index(*doc); } return true; }

（5）建立正排索引

思路：首先我们拿到了单个文档的内容，也就是 line（string）变量，然后对这个内容进行解析，提取出标题、内容、URL（每个line变量都是：标题 | 内容 | URL 的格式，分割即可！）然后填入到vector里面，该文档的ID刚好就是vector的下标，下面有正排的结构体，大家可以对照着看：

//建立正排索引 Forwardindex *BUild_Forward_Index(const std::string&line) { Forwardindex* index = new Forwardindex(); //截取title size_t set_pos1 = line.find('\3'); if(set_pos1 == std::string::npos) { delete index; return nullptr; } index->title = line.substr(0, set_pos1); if (index->title.empty()) index->title = "空"; //截取source size_t set_pos2 = line.find('\3', set_pos1+1); if(set_pos2 == std::string::npos) { delete index; return nullptr; } index->source = line.substr(set_pos1+1, set_pos2 - (set_pos1+1)); if (index->source.empty()) index->source = "空"; //截取URL(chain) index->chain = line.substr(set_pos2+1); if (index->chain.empty()) index->chain = "空"; index->doc_id = Forward.size(); Forward.push_back(*index); return index; }

//正排结构 typedef struct Forward_index { //文档内容 std::string title; std::string source; std::string chain; //对应正排ID uint64_t doc_id; }Forwardindex;

（6）建立倒排索引

//建立倒排索引 bool Build_Inverted_Index(const Forwardindex& doc) { //建立分词对象 JiebaUtil jieba; std::vector<std::string> S; //对标题统计 S=jieba.Tokenize(doc.title); //此时V存放的是每个标题的分词，然后统计结果和出现次数 struct culculate { int title_size=0; int source_size=0; }; std::unordered_map<std::string,culculate> V; //遍历S统计标题的出现次数 for(auto e:S) { (V[e].title_size)++; } //统计内容出现次数 S.clear(); S=jieba.Tokenize(doc.source); for(auto e:S) { (V[e].source_size)++; } //遍历V的结果写入到Inverted for(auto it:V) { Invertedindex index_t; index_t.word=it.first; index_t.doc_id=doc.doc_id; index_t.weight=((it.second.title_size)*2+(it.second.source_size)*1); Inverted[it.first].push_back(std::move(index_t)); } return true; }

【四】单例模式

单例模式：只允许创建一个Index对象，后面只能由 index 指针调用该对象

pthread_mutex_t mutex = PTHREAD_MUTEX_INITIALIZER; class Index { public: typedef std::vector<Invertedindex> Stock_Inverted; //禁止拷贝构造和赋值重载 Index(const Index&)=delete; Index& operator=(const Index&)=delete; static Index*handle() { if(instance==nullptr) { pthread_mutex_lock(&mutex); if (instance == nullptr) { instance = new Index; } pthread_mutex_unlock(&mutex); } return instance; } ...... }

 //静态成员初始化 Index* Index::instance=nullptr;

C++ 模板进阶：特化、萃取与可变参数模板

C++ 模板进阶：特化、萃取与可变参数模板 💡 学习目标：掌握模板进阶技术的核心用法，理解模板特化的深层应用、类型萃取的实现原理，以及可变参数模板的灵活使用，提升泛型编程的实战能力。 💡 学习重点：模板特化的进阶场景、类型萃取工具的设计与应用、可变参数模板的展开技巧、折叠表达式的使用方法。一、模板特化进阶：处理复杂类型场景 💡 模板特化不只是针对单一类型的定制，还能处理指针、引用、数组等复杂类型，实现更精细的类型适配逻辑。 1.1 指针类型的模板特化通用模板默认处理普通类型，我们可以为指针类型单独编写特化版本，实现指针专属的逻辑。 #include<iostream>#include<string>usingnamespace std;// 通用模板：处理普通类型template<typenameT>classTypeProcessor{public:staticvoidprocess(T data){ cout

【Java 学习】Comparable接口和 Comparator接口，掌控排序逻辑解析，深入 Comparable 和 Comparator 的优雅切换

💬 欢迎讨论：如对文章内容有疑问或见解，欢迎在评论区留言，我需要您的帮助！ 👍 点赞、收藏与分享：如果这篇文章对您有所帮助，请不吝点赞、收藏或分享，谢谢您的支持！ 🚀 传播技术之美：期待您将这篇文章推荐给更多对需要学习Java语言、低代码开发感兴趣的朋友，让我们共同学习、成长！ 1. Comparable接口 1.1 为什么要使用Comparable接口先看代码两组代码：代码1： importjava.util.Arrays;publicclassMain{publicstaticvoidmain(String[] args){// 创建一个数组String[] strs ={"李华","小明","小红"};// 对数组进行排序Arrays.sort(strs);// 打印System.out.println(Arrays.toString(strs));}} 上述代码可以打印出比较的后的顺序。

全栈开发的演变：从LAMP到MEAN再到现代JavaScript

全栈开发者概述在众多企业中，尤其是创业型公司，人力资源部门在招聘时常常渴望能够找到一位技术上的多面手，即全栈开发者。那么，究竟什么是全栈开发者，他们需要掌握哪些核心技能呢？ ◆ 定义与技能要求传统上，“全栈”开发人员被界定为既能够胜任前端开发，也能进行后端开发工作。然而，在现代软件开发领域，全栈开发者的能力已经超越了这一传统定义。他们不仅需要掌握传统的开发技能，还需要熟悉DevOps工具和技术，如Git、测试以及网站部署等。由于“栈”这一概念涵盖了这些广泛的技术领域，因此，全栈开发人员可被理解为在构建网站的过程中，能够独当一面地处理所有技术问题。 ◆ 技术栈的发展这些年来，随着技术的发展，某些“栈”已经逐渐淡出人们的视线。其中，LAMP栈（Linux、Apache、MySQL和PHP的组合）曾一度备受瞩目。掌握这四项技术的开发者，被视为能够独立处理网站构建中的各项技术问题。然而，随着时代的演变，全栈的概念已经超越了单纯的技能掌握。 ◆ 角色的变化 LAMP栈的全栈开发人员，确实需要精通Linux、Apache、MySQL和PHP，这些技术构成了网站构建的基础

如何在5分钟内用JavaScript创建专业级韦恩图：venn.js终极指南

如何在5分钟内用JavaScript创建专业级韦恩图：venn.js终极指南【免费下载链接】venn.jsArea proportional Venn and Euler diagrams in JavaScript 项目地址: https://gitcode.com/gh_mirrors/ve/venn.js 想要在网页上快速创建面积比例准确的韦恩图和欧拉图吗？venn.js是专为数据可视化设计的JavaScript库，让您能够轻松生成专业级的集合关系图表。无论您是数据分析师、前端开发者还是科研工作者，这个强大的工具都能帮助您直观展示数据间的交集和并集关系。🚀 为什么选择venn.js进行数据可视化？ venn.js作为专业的JavaScript韦恩图库，具有以下核心优势： * 智能布局算法：自动计算最合适的圆环位置和大小 * 面积比例准确：确保每个区域的面积与数据量成正比 * 完全交互式：支持鼠标悬停、点击等交互操作 * 高度可定制：颜色、样式、文字等均可自由配置 * 轻量且高效：基于D3.js构建，性能优越快速开始：

【一】Jieba分词工具

【二】正/倒排索引结构设计

【三】关键函数设计

（1）由文档ID返回文档内容

（2）由关键字返回倒排拉链

（3）说明

（4）建立索引

（5）建立正排索引

（6）建立倒排索引

【四】单例模式

Read more

C++ 模板进阶：特化、萃取与可变参数模板

【Java 学习】Comparable接口 和 Comparator接口，掌控排序逻辑解析，深入 Comparable 和 Comparator 的优雅切换

全栈开发的演变：从LAMP到MEAN再到现代JavaScript

如何在5分钟内用JavaScript创建专业级韦恩图：venn.js终极指南

【Java 学习】Comparable接口和 Comparator接口，掌控排序逻辑解析，深入 Comparable 和 Comparator 的优雅切换