Boost.Filesystem 清洗 HTML 文档并生成索引数据 | 极客日志

C++java

Boost.Filesystem 清洗 HTML 文档并生成索引数据

这段代码用 Boost.Filesystem 递归枚举 Boost 文档目录中的 HTML 文件，读取后提取标题、正文和 URL，再按固定分隔符写入输出文件，作为后续正倒排索引的原始数据。标题通过查找 title 标签截取，正文用状态机去掉 HTML 标签并把换行压成空格，URL 则由本地相对路径拼接固定站点前缀生成。

性能调优发布于 2026/6/300 浏览

1. 枚举文件

这里先给 boost::filesystem 取个别名，后面代码会顺手很多。流程很直白：把 src_path 转成 root_path，先判断目录是否存在，不存在就直接返回；存在的话，就递归遍历里面的文件。

遍历时只保留普通文件，并且扩展名必须是 .html。符合条件的路径再转成 string，放进 file_list。这个地方别把 .string() 换成 to_string()，前者是路径对象自己的接口，后者不是拿来处理路径的。

bool EnumFile(const std::string &src_path, std::vector<std::string> *file_list) {
    namespace fs = boost::filesystem;
    fs::path root_path(src_path);
    if (!fs::exists(root_path)) {
        std::cout << src_path << " is not exist" << std::endl;
        return false;
    }
    fs::recursive_directory_iterator end;
    for (fs::recursive_directory_iterator iter(root_path); iter != end; iter++) {
        if (!fs::is_regular_file(*iter)) continue;
        if (iter->path().extension() != ".html") continue;
        file_list->push_back(iter->path().string());
    }
    return true;
}

2. 内容解析

2.1 读取并拆字段

ParseHtml 负责把文件串起来处理：先读内容，再提取标题、正文和 URL。中间任一步失败，就跳过这份文件，不把脏数据往后传。

bool ParseHtml(const std::vector<std::string> &files_list,  std::string &src_path, std::vector<DocInfo_t> *results) {
     ( std::string &file : files_list) {
        std::string tr;
         (!ns_util::FileUtil::(file, &tr)) ;
        DocInfo doc;
         (!(tr, &doc.title)) ;
         (!(tr, &doc.content)) ;
         (!(file, src_path, &doc.url)) ;
        results->(doc);
    }
     ;
}

相关免费在线工具

Keycode 信息
查找任何按下的键的javascript键代码、代码、位置和修饰符。在线工具，Keycode 信息在线工具，online
Escape 与 Native 编解码
JavaScript 字符串转义/反转义；Java 风格 \uXXXX（Native2Ascii）编码与解码。在线工具，Escape 与 Native 编解码在线工具，online
JavaScript / HTML 格式化
使用 Prettier 在浏览器内格式化 JavaScript 或 HTML 片段。在线工具，JavaScript / HTML 格式化在线工具，online
JavaScript 压缩与混淆
Terser 压缩、变量名混淆，或 javascript-obfuscator 高强度混淆（体积会增大）。在线工具，JavaScript 压缩与混淆在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online

static bool ParseTitle(std::string &file, std::string *title) {
    std::size_t begin = file.find("<title>");
    if (begin == std::string::npos) return false;
    std::size_t end = file.find("</title>");
    if (end == std::string::npos) return false;
    begin += std::string("<title>").size();
    if (begin > end) return false;
    *title += file.substr(begin, end - begin);
    return true;
}

static bool ParseContent(std::string &file, std::string *content) {
    typedef enum status {
        LABEL,
        CONTENT
    } judge;
    judge s = LABEL;
    for (char c : file) {
        switch (s) {
            case LABEL:
                if (c == '>') s = CONTENT;
                break;
            case CONTENT:
                if (c == '<') s = LABEL;
                else {
                    if (c == '\n') c = ' ';
                    *content += c;
                }
                break;
            default:
                break;
        }
    }
    return true;
}

static bool ParseUrl(const std::string &file_path, const std::string &src_path, std::string *url) {
    std::string url_head = "https://www.boost.org/doc/libs/1_89_0/doc/html";
    std::string url_tail = file_path.substr(src_path.size());
    *url = url_head + url_tail;
    return true;
}

bool SaveHtml(const std::vector<DocInfo_t> &results, const std::string &output) {
    std::ofstream out(output);
    if (!out.is_open()) {
        std::cout << "open " << output << " failed!" << std::endl;
        return false;
    }
    for (auto &item : results) {
        std::string out_string;
        out_string += item.title;
        out_string += '\3';
        out_string += item.content;
        out_string += '\3';
        out_string += item.url;
        out_string += '\n';
        out.write(out_string.c_str(), out_string.size());
    }
    out.close();
    return true;
}

Boost.Filesystem 清洗 HTML 文档并生成索引数据

1. 枚举文件

2. 内容解析

2.1 读取并拆字段

更多推荐文章

相关免费在线工具

2.2 提取 title

2.3 提取 content

2.4 构建 url

3. 保存结果

更多推荐文章

相关免费在线工具

Boost.Filesystem 清洗 HTML 文档并生成索引数据

1. 枚举文件

2. 内容解析

2.1 读取并拆字段

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 提取 title

2.3 提取 content

2.4 构建 url

3. 保存结果

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具