跳到主要内容
极客日志极客日志
首页博客AI提示词GitHub精选代理工具
搜索
|注册
博客列表
Javajava算法

Solr 配置停止词与排除词(mmseg4j 版)

Solr 搜索引擎中停止词用于过滤无意义词汇以提升检索效率。介绍基于 mmseg4j 分词器配置 Solr 停止词的方法。主要步骤包括在 solr home 下创建 dic 目录并放置 stopwords.txt 文件,每行一个词;修改 schema.xml 添加 StopFilterFactory 过滤器指向该文件路径;最后重启 Tomcat 服务。需注意文件编码格式避免 Core 启动异常,若涉及分词统计需重建索引。配置示例包含 textMaxWord 类型字段调整及 MMST 分析器说明。

雾岛听风发布于 2017/9/29更新于 2026/4/263 浏览
Solr 配置停止词与排除词(mmseg4j 版)

停止词配置指南

停止词是无功能意义的词,比如 is、a、are、'的'、'得'、'我'等,这些词会在句子中多次出现却无意义,所以在分词的时候需要把这些词过滤掉。

环境信息:Solr 4.5.1, mmseg4j 1.9.1, JDK 1.6.0_45, Tomcat 6.0.37 | CentOS 5.7

准备停止词

在 solr home 下建 dic 目录,里边放需要用到的停止词文件,文件中每行一词。此处为测试仅加入了'的'。目录形如:

/root/solr-4.5.1/example/solr/dic/stopwords.txt

修改 schema

在 solr-4.5.1/example/solr/test/conf/schema.xml 中增加 filter 配置:

<filter class="solr.StopFilterFactory" ignoreCase="true" words="/root/solr-4.5.1/example/solr/dic/stopwords.txt"/>

重启服务

重启 Tomcat 使配置生效。

效果验证

设置前与设置后的分词结果会有所不同,停用词将被过滤。

注意事项

  1. stopwords 文件网上有一些共享资源,也可以自行添加;
  2. 如果 stopwords 文件是从 Windows 编辑后上传到服务器的,非常容易因编码问题导致异常,推荐直接在服务器编辑保存;
  3. 如果配置的 content 字段使用的是 textMaxWord 类型,请确保在相应位置处配置;
  4. 某些情况如获取分词数量排行、做分词云,需要删除旧索引重新生成;
  5. MMST: com.chenlb.mmseg4j.analysis.MMSegTokenizer SF: org.apache.lucene.analysis.core.StopFilter

目录

  1. 停止词配置指南
  2. 准备停止词
  3. 修改 schema
  4. 重启服务
  5. 效果验证
  6. 注意事项
  • 💰 8折买阿里云服务器限时8折了解详情
  • 💰 8折买阿里云服务器限时8折购买
  • 🦞 5分钟部署阿里云小龙虾了解详情
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • FPGA 摄像头采集到 HDMI 显示完整链路实战
  • Unix AI 发布第三代黑豹机器人:全栈自研与真实场景落地能力解析
  • Promise 多请求、finally 及链式调用避坑指南
  • Spring Boot 与 Leaflet 实现省域迂回可视化实战
  • Git 配置 SSH Key 连接 GitHub 详细教程
  • 网络安全基础概念、核心领域及常见威胁解析
  • YOLO 无人机目标检测数据集与实战训练教程
  • ComfyUI 集成 Stable Diffusion 3.5 FP8 模型与性能优化
  • ROS导航实战:如何用mpc_local_planner让机器人高效避障(附参数调优技巧)
  • Spring AI:Java 生态的 AI 赋能与企业级应用实践
  • YOLO26 实时目标检测关键架构改进与性能基准测试
  • VS Code 集成 MiniMax M2.1 实现 AI 辅助编程
  • 大模型实战:深入解析 LLaMA 核心算子 RMSNorm 开发
  • KingbaseES 融合数据库:内核级一体化架构与一库多能实践
  • C++红黑树的设计原理与实现详解
  • 医疗 AI 场景下的模型融合与集成策略
  • 2026 国内 AI 编程订阅套餐横评与选型指南
  • 基于 Rokid AR 眼镜的 Android 喝水提醒应用开发
  • AI 编程:自动化代码生成、低代码与算法优化实践
  • 使用 Git 将代码从远程仓库拉取到本地

相关免费在线工具

  • Keycode 信息

    查找任何按下的键的javascript键代码、代码、位置和修饰符。 在线工具,Keycode 信息在线工具,online

  • Escape 与 Native 编解码

    JavaScript 字符串转义/反转义;Java 风格 \uXXXX(Native2Ascii)编码与解码。 在线工具,Escape 与 Native 编解码在线工具,online

  • JavaScript / HTML 格式化

    使用 Prettier 在浏览器内格式化 JavaScript 或 HTML 片段。 在线工具,JavaScript / HTML 格式化在线工具,online

  • JavaScript 压缩与混淆

    Terser 压缩、变量名混淆,或 javascript-obfuscator 高强度混淆(体积会增大)。 在线工具,JavaScript 压缩与混淆在线工具,online

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online