IK分词器的扩展与停用词典

什么是扩展词典/停用词典

可以通过编辑扩展词典和停用词典来改变分词规则

  • 扩展词典:有些词并不是关键词,但是也希望被ES用来作为检索的关键词,可以将这些词加入扩展词典。
  • 停用词典 有些词是关键词,但是出于业务场景不想使用这些关键词被检索到,可以将这些词放入停用词典

如何添加扩展词典和停用词典?

所在目录:

image-20240920180904048

编辑 IKAnalyzer.cfg.xml 文件

1
2
3
4
5
6
7
8
9
10
11
12
13
14
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!--用户可以在这里配置自己的扩展字典 -->
<entry key="ext_dict">extword.dic(这是自己添加的扩展词典)</entry>
<!--用户可以在这里配置自己的扩展停止词字典-->
<entry key="ext_stopwords">stopword.dic(这是自己添加的停用词典)</entry>
<!--用户可以在这里配置远程扩展字典 -->
<!-- <entry key="remote_ext_dict">words_location</entry> -->
<!--用户可以在这里配置远程扩展停止词字典-->
<!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

默认扩展词典和停用词典的位置和 IKAnalyzer.cfg.xml 在同一目录下

IK 分词器的两种分词模式

IK分词插件的分词器的分词规则包括ik_smart和ik_max_word两种:

  • ik_max_word:将文本按照最细粒度进行拆分,适合术语查询。
  • ik_smart:将文本按照粗粒度进行拆分,适合短语查询。