C++之基于正倒排索引的Boost搜索引擎项目usuallytool部分代码及详解

C++之基于正倒排索引的Boost搜索引擎项目usuallytool部分代码及详解
这部分是通用工具部分的代码,简单来说就是这份代码里面的函数会在项目的其他多个部分里面被使用,所以我们专门创建一个部分用来存储这些代码。

1.FileUtil

这个类就是专门用来读取文件用的,这个代码从指定的文件路径读取文件内容,将读取到的内容(按行读取)追加到传入的字符串指针(out)所指向的字符串中;同时,该方法会返回一个布尔值,用于标识读取操作是否成功 —— 若文件成功打开并完成读取,返回 true;若文件打开失败(如路径错误等),则输出错误信息并返回 false。

文件以二进制输入模式打开,读取过程中不会修改原文件内容。

class FileUtil{ public: static bool ReadFile(const std::string &file_path,std::string *out) { //下面这行代码就是在打开文件,并通过ifstream定义一个对象in,用于关联特定的文件 std::ifstream in(file_path,std::ios::in | std::ios::binary); //这两边的in不是同一个东西,前面那个in用于关联特定的文件 //后面那个in是指定文件的打开方式,表示 "以输入模式打开文件"(即只读模式) if(!in.is_open())//这边判断文件是否打开,没打开就退出 { std::cout<<"open file "<<file_path<<": error"<<std::endl; return false; } //while里面要求是bool类型,然后getline的返回类型是输入流引用 //但在实际使用中能当作 bool 类型来使用,因为重载了 bool 类型转换操作符。 //简单来说就是要bool的地方C++会尝试转换成bool类型 std::string line; while(std::getline(in,line)) *out+=line;//把file_path的内容添加到out里面 //in 的只读特性限制的是 “不能写原文件”,而*out+=line并没有试图修改原文件 in.close();//关闭文件 return true; } };

2.JiebaUsutl

这边的话我们是相当于套皮,就是jieba这个非标准库里面有用来分词的函数,然后我们相当于是把那个函数的路径给拿出来,然后通过调用这几个路径里面的构造函数来初始化一个jieba的类,然后我们通过CutString来调用实例化后的jieba类里面的CutForSearcher来实现分词。

为什么我们要加static 呢?

1. 对于静态成员变量jieba

cppjieba::Jieba对象的初始化依赖词典文件,初始化成本较高,且分词功能通常只需要一个实例即可满足需求。用static修饰后,jieba成为类级别的成员,整个程序运行期间只会被初始化一次,避免了重复创建对象带来的资源消耗和冗余操作。确保所有使用JiebaUsutl类进行分词的地方,都共享同一个jieba实例,保证分词逻辑和词典数据的一致性。

2. 对于静态成员函数CutString

该函数的功能是调用jieba的分词方法,而jieba是静态成员(属于类本身),不需要依赖JiebaUsutl的具体实例即可访问。因此,CutStringstatic修饰后,可以直接通过类名(如JiebaUsutl::CutString)调用,无需先创建JiebaUsutl对象,简化了使用方式。

const char* const DICT_PATH = "test/cppjieba/dict/jieba.dict.utf8"; const char* const HMM_PATH = "test/cppjieba/dict/hmm_model.utf8"; const char* const USER_DICT_PATH = "test/cppjieba/dict/user.dict.utf8"; const char* const IDF_PATH = "test/cppjieba/dict/idf.utf8"; const char* const STOP_WORD_PATH = "test/cppjieba/dict/stop_words.utf8"; //test/cppjieba/test这个路径就是那个分词的函数所在的位置 class JiebaUsutl{//这边就是通过cpppjieba里面的分词来进行分词 private: static cppjieba::Jieba jieba; public: static void CutString(const std::string& src,std::vector<std::string>* out) { jieba.CutForSearch(src,*out);//这个CutForSearch就是cppjieba里面的函数 } }; cppjieba::Jieba JiebaUsutl::jieba(DICT_PATH,HMM_PATH,USER_DICT_PATH,IDF_PATH,STOP_WORD_PATH); //对类 JiebaUsutl 中的静态成员 jieba 进行初始化。 //传入几个词典相关的路径(DICT_PATH、HMM_PATH 等),就是调用 Jieba 的构造函数,用这些路径来初始化 JiebaUsutl 类里的静态成员 jieba。 //这样,在后续使用 JiebaUsutl::CutString 方法时,jieba 这个静态对象已经被正确初始化,可以调用其 CutForSearch 方法来进行分词操作了。

3. 总结

以下就是usuallytool部分的完整代码,基本上来说我们只要写项目那就肯定是需要一份usuallytool的。

#pragma once #include<iostream> #include<string> #include<fstream> #include<boost/algorithm/string.hpp> #include"cppjieba/Jieba.hpp" namespace ns_util{ class FileUtil{ public: static bool ReadFile(const std::string &file_path,std::string *out) { //下面这行代码就是在打开文件,并通过ifstream定义一个对象in,用于关联特定的文件 std::ifstream in(file_path,std::ios::in | std::ios::binary); //这两边的in不是同一个东西,前面那个in用于关联特定的文件 //后面那个in是指定文件的打开方式,表示 "以输入模式打开文件"(即只读模式) if(!in.is_open())//这边判断文件是否打开,没打开就退出 { std::cout<<"open file "<<file_path<<": error"<<std::endl; return false; } //while里面要求是bool类型,然后getline的返回类型是输入流引用 //但在实际使用中能当作 bool 类型来使用,因为重载了 bool 类型转换操作符。 //简单来说就是要bool的地方C++会尝试转换成bool类型 std::string line; while(std::getline(in,line)) *out+=line;//把file_path的内容添加到out里面 //in 的只读特性限制的是 “不能写原文件”,而*out+=line并没有试图修改原文件 in.close();//关闭文件 return true; } }; class StringUtil{ public: //target是要切分的目标,out是最后把结果输入到里面,sep是分隔符(\3) static void Split(const std::string& target,std::vector<std::string>* out,std::string sep) { boost::split(*out,target,boost::is_any_of(sep),boost::token_compress_on); //split这个函数就是用来对字符串做切分的 //token_compress_on表示会把连续的“\3”合并成一个 } }; const char* const DICT_PATH = "test/cppjieba/dict/jieba.dict.utf8"; const char* const HMM_PATH = "test/cppjieba/dict/hmm_model.utf8"; const char* const USER_DICT_PATH = "test/cppjieba/dict/user.dict.utf8"; const char* const IDF_PATH = "test/cppjieba/dict/idf.utf8"; const char* const STOP_WORD_PATH = "test/cppjieba/dict/stop_words.utf8"; //test/cppjieba/test这个路径就是那个分词的函数所在的位置 class JiebaUsutl{//这边就是通过cpppjieba里面的分词来进行分词 private: static cppjieba::Jieba jieba; public: static void CutString(const std::string& src,std::vector<std::string>* out) { jieba.CutForSearch(src,*out);//这个CutForSearch就是cppjieba里面的函数 } }; cppjieba::Jieba JiebaUsutl::jieba(DICT_PATH,HMM_PATH,USER_DICT_PATH,IDF_PATH,STOP_WORD_PATH); //对类 JiebaUsutl 中的静态成员 jieba 进行初始化。 //传入几个词典相关的路径(DICT_PATH、HMM_PATH 等),就是调用 Jieba 的构造函数,用这些路径来初始化 JiebaUsutl 类里的静态成员 jieba。 //这样,在后续使用 JiebaUsutl::CutString 方法时,jieba 这个静态对象已经被正确初始化,可以调用其 CutForSearch 方法来进行分词操作了。 }; 

Read more

openGauss 核心体系架构深度解析

openGauss 核心体系架构深度解析

openGauss 是一款高性能、高安全、高可靠的企业级开源关系型数据库。要掌握它的运维与调优,必须深入理解其底层的体系结构。本文将从配置文件、逻辑架构、内存结构和存储结构四个维度进行详细剖析。 一、关键配置文件 在启动数据库之前,我们首先要关注两个决定数据库行为的核心文件,它们通常位于数据目录下。 1. 核心参数配置 这是数据库的总控文件,相当于人的心脏 作用:决定了数据库的内存分配如 shared_buffers、连接限制如 max_connections、日志记录以及端口监听等全局行为 生效机制:修改此文件中的大部分参数(尤其是涉及内存和端口的)需要重启数据库才能生效,部分参数可通过 reload 在线生效 2. 客户端认证策略 这是数据库的门卫文件,全称为 Host-Based Authentication 作用:它严格定义了允许哪些客户端 IP、通过什么认证方式如 md5, sha256, trust、访问哪个数据库以及使用哪个用户名 重要性:配置错误会导致拒绝连接或产生严重的安全漏洞 二、

By Ne0inhk
php入门教程(超详细,一篇就够了!!!)

php入门教程(超详细,一篇就够了!!!)

前言 本章节主要学习PHP概念、PHP环境搭建、基本语法、PHP函数、PHP文件管理、PHP操作MySQL数据库等知识点,收录于PHP基础系列。该系列主要讲解PHP相关知识点,欢迎童鞋们互相交流。觉得不错可以三连订阅喔。  目录 一 概述 二 环境搭建 1. 开发环境 2. 使用小皮面板运行PHP程序 3. 开发工具  三 语法 1. 创建php文件 2. 格式 3. 注释 4. HelloWord 四 变量 五 数据类型 1. 字符串  2. 整数 3. 小数(浮点数) 4. 布尔 5. PHP 对象 (Object) 6.

By Ne0inhk
Flutter 组件 lyform 适配鸿蒙 HarmonyOS 实战:响应式表单引擎,构建多维校验与状态驱动的交互反馈架构

Flutter 组件 lyform 适配鸿蒙 HarmonyOS 实战:响应式表单引擎,构建多维校验与状态驱动的交互反馈架构

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net Flutter 组件 lyform 适配鸿蒙 HarmonyOS 实战:响应式表单引擎,构建多维校验与状态驱动的交互反馈架构 前言 在鸿蒙(OpenHarmony)生态迈向政务办公、智慧医疗及大型企业级管理系统等重定义表单交互的背景下,如何实现高度解耦的表单校验逻辑、提升超长表单的录入效率,已成为决定应用用户体验(UX)的“核心命门”。在鸿蒙设备这类强调分布式协同与流畅性能(Fluidity)的终端上,如果表单逻辑依然堆砌在 UI 层的 setState 之中,由于由于复杂的字段联级校验与高频的视图重绘,极易由于由于主线程阻塞导致虚拟键盘弹出时的严重掉帧。 我们需要一种能够实现逻辑与视图彻底分离、支持基于流(Stream)的状态监控且具备严密规则校验能力的表单治理框架。 lyform 为 Flutter 开发者引入了基于 BLoC 模式的高阶表单管理方案。它将每一个输入字段抽象为独立的 InputBloc,并由 FormBloc 进行全局状态统筹。在适配到

By Ne0inhk