C++ Boost 搜索引擎数据清洗与解析实现详解 | 极客日志

C++AI算法

C++ Boost 搜索引擎数据清洗与解析实现详解

档详细讲解了基于 C++ 和 Boost 库构建搜索引擎的数据清洗流程。涵盖使用 filesystem 遍历 HTML 文件、字符串匹配提取标题与内容、状态机去除标签、URL 拼接以及结果序列化保存等核心步骤。重点解决了路径转换、字符编码处理及文件读写中的常见陷阱，为后续倒排索引构建提供标准化数据输入。

flc发布于 2025/11/27更新于 2026/7/1234 浏览

文件遍历与筛选

在开始处理数据前，我们需要利用 Boost.Filesystem 模块高效地遍历目录。这里先对命名空间取个别名，简化后续调用。将传入的源路径赋值给根路径变量后，首先校验路径是否存在，若无效则直接返回。

接着通过递归迭代器访问目录下的每一个文件。逻辑上我们主要关注两点：一是确认是否为普通文件，二是检查扩展名是否包含 .html。只有同时满足这两个条件的文件才会被加入列表。需要注意的是，路径对象转换为字符串时，必须使用 .string() 成员函数，而非 to_string()，后者仅适用于数值类型转换。

bool EnumFile(const std::string &src_path, std::vector<std::string> *file_list) {
    namespace fs = boost::filesystem;
    fs::path root_path(src_path);
    
    if (!fs::exists(root_path)) {
        std::cout << src_path << " is not exist" << std::endl;
        return true; // 修正：成功返回 true
    }
    
    fs::recursive_directory_iterator end;
    for (fs::recursive_directory_iterator iter(root_path); iter != end; ++iter) {
        // 判断是否为普通文件
        if (!fs::is_regular_file(*iter)) continue;
        
        // 过滤非 .html 文件
        if (iter->path().extension() != ".html") continue;
        
        file_list->push_back(iter->path().string());
    }
    return true; // 修正：成功返回 true
}

HTML 解析与数据提取

为了保持代码清晰，我们将读取、标题提取、内容提取和 URL 构建拆分为独立函数。这种模块化设计有助于快速定位错误。

1. 主解析流程

主函数负责协调各个子步骤。依次读取文件内容、提取标题、提取正文并构建 URL，最后将完整的文档信息存入结果集。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

bool ParseHtml(const std::vector<std::string> &files_list, std::vector<DocInfo_t> *results) {
    for (const std::string &file : files_list) {
        std::string tr; // 临时存储文件内容
        if (!ns_util::FileUtil::ReadFile(file, &tr)) continue;
        
        DocInfo doc;
        if (!ParseTitle(tr, &doc.title)) continue;
        if (!ParseContent(tr, &doc.content)) continue;
        if (!ParseUrl(file, &doc.url)) continue;
        
        results->push_back(doc);
    }
    return true; // 修正：成功返回 true
}

static bool ParseTitle(std::string &file, std::string *title) {
    std::size_t begin = file.find("<title>");
    if (begin == std::string::npos) return false;
    
    std::size_t end = file.find("</title>");
    if (end == std::string::npos) return false;
    
    begin += std::string("<title>").size();
    if (begin > end) return false;
    
    *title += file.substr(begin, end - begin);
    return true;
}

static bool ParseContent(std::string &file, std::string *content) {
    typedef enum status {
        LABLE,
        CONTENT
    } judge;
    
    judge s = LABLE;
    
    for (char c : file) {
        switch (s) {
            case LABLE:
                if (c == '>') s = CONTENT; // 修正：赋值操作
                break;
            case CONTENT:
                if (c == '<') s = LABLE;
                else {
                    if (c == '\n') c = ' '; // 修正：转义字符
                    *content += c;
                }
                break;
            default:
                break;
        }
    }
    return true;
}

static bool ParseUrl(const std::string &file_path, std::string *url) {
    std::string url_head = "https://www.boost.org/doc/libs/1_89_0/doc/html";
    // 假设 src_path 在当前作用域可用，用于计算相对路径
    std::string url_tail = file_path.substr(src_path.size());
    
    *url = url_head + url_tail;
    return true;
}

bool SaveHtml(const std::vector<DocInfo_t> &results, const std::string &output) {
    std::ofstream out(output);
    
    if (!out.is_open()) {
        std::cout << "open " << output << " failed!" << std::endl;
        return false;
    }
    
    for (auto &item : results) {
        std::string out_string;
        out_string += item.title;
        out_string += '\3';
        out_string += item.content;
        out_string += '\3';
        out_string += item.url;
        out_string += '\n';
        
        out.write(out_string.c_str(), out_string.size());
    }
    
    out.close();
    return true; // 修正：成功返回 true
}

C++ Boost 搜索引擎数据清洗与解析实现详解

文件遍历与筛选

HTML 解析与数据提取

1. 主解析流程

更多推荐文章

相关免费在线工具

2. 标题提取

3. 内容提取

4. URL 构建

结果持久化

更多推荐文章

相关免费在线工具

C++ Boost 搜索引擎数据清洗与解析实现详解

文件遍历与筛选

HTML 解析与数据提取

1. 主解析流程

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 标题提取

3. 内容提取

4. URL 构建

结果持久化

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具