当前位置: 首页 > news >正文

鄂州网站设计制作大数据网站开发

鄂州网站设计制作,大数据网站开发,做推广的装修网站,深圳公司视频制作ElasticSearch 添加IK分词器 前言一、IK分词器的算法二、Ik分词器的下载安装(Winows 版本)三、Ik分词器的下载安装(Linux 版本)四、验证测试(postman工具)测试 ik_smart 分词算法测试 ik_max_word 分词算法…

ElasticSearch 添加IK分词器

  • 前言
  • 一、IK分词器的算法
  • 二、Ik分词器的下载安装(Winows 版本)
  • 三、Ik分词器的下载安装(Linux 版本)
  • 四、验证测试(postman工具)
    • 测试 ik_smart 分词算法
    • 测试 ik_max_word 分词算法
    • 扩展字典

前言

  1. Elasticsearch(ES)内置携带了多种类型的分词器,而Standard Analyzer(单字分词)只是其中之一,并且是默认使用的分词器。
  2. IK分词器是一个专门为中文文本设计的分词工具,它不是ES的内置组件,而是一个需要单独安装和配置的插件。
  3. 在Elasticsearch中,IK分词器和Standard Analyzer是并存的关系,它们并不会互相排斥或覆盖
  4. 在Elasticsearch中,当你在创建索引时为某个字段指定了特定的分词器(比如中文分词器IK Analyzer),那么这个分词器就会被应用于该字段的文本数据,在后续的索引和查询过程中都会使用这个分词器来处理该字段的文本。
    如果你没有为字段指定分词器,Elasticsearch会使用该字段类型默认的分词器。对于文本(text)类型的字段,默认的分词器通常是Standard Analyzer,它适用于大多数英文文本的分词处理,但不适用于中文等需要特殊分词处理的文本。

一、IK分词器的算法

IK提供了两个分词算法:ik_smart和ik_max_word,其中ik smart为最少切分,ik_max_word为最细粒度划分!

ik_max_word: 会将文本做最细粒度的拆分,比如会将"中华人民共和国国歌"拆分为"中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌",会穷尽各种可能的组合;

ik_smart: 会做最粗粒度的拆分,比如会将"中华人民共和国国歌"拆分为"中华人民共和国,国歌"。

二、Ik分词器的下载安装(Winows 版本)

下载地址: https://github.com/medcl/elasticsearch-analysis-ik

在这里插入图片描述

注意:IK分词器插件的版本要和ElasticSearch的版本一致

我这边是v7.15.2的
在这里插入图片描述

解压安装包到 ElasticSearch 所在文件夹中的plugins目录中:

在这里插入图片描述

Windows 环境下 再启动ElasticSearch,查看IK分词器插件是否安装成功:

在这里插入图片描述

三、Ik分词器的下载安装(Linux 版本)

下载地址: https://github.com/medcl/elasticsearch-analysis-ik

在这里插入图片描述

注意:IK分词器插件的版本要和ElasticSearch的版本一致

我这边是v7.15.2的
在这里插入图片描述

需要在plugins目录下创建ik分词器文件夹(文件夹名称一定要命名为ik,不然启动elasticsearch时候会报错的),然后在把里面的东西解压放在这个ik下面,如下:
在这里插入图片描述
解压完ik分词器安装包后,重启elasticsearch。

四、验证测试(postman工具)

使用postman工具校验

测试 ik_smart 分词算法

分词请求+入参:

请求:
http://127.0.0.1:9200/_analyze入参:
{"analyzer": "ik_smart","text": "海内存知己,天涯若比邻"
}

结果如下所示:
在这里插入图片描述

测试 ik_max_word 分词算法

分词请求+入参:

请求:
http://127.0.0.1:9200/_analyze入参:
{"analyzer": "ik_max_word","text": "海内存知己,天涯若比邻"
}

结果如下所示:
在这里插入图片描述

比较两个分词算法对同一句中文的分词结果,ik_max_word比ik_smart得到的中文词更多(从两者的英文名含义就可看出来),但这样也带来一个问题,使用ik_max_word会占用更多的存储空间。

扩展字典

从上面的举例来看,我使用 ik_max_word 算法时,分词里面没有“存知己”这个词,如果我想加该怎么办,这个时候就涉及了扩展字典的操作了。

第一步:
在ik分词器文件的config目录中新建自定义的字典文件,以.dic为后缀,并在文件中加入“存知己”
在这里插入图片描述
第二步:
然后打开 IKAnalyzer.cfg.xml 文件,把自定义的字典添加到IK的字典中:
在这里插入图片描述
第三步:
重启ES,再次测试,就发现有了“存知己”这个词了
在这里插入图片描述

参考文章
【1】ElasticSearch——IK分词器的下载及使用
【2】Elasticsearch和Kibana版本对应关系
【3】ElasticSearch在linux环境中集成IK分词器

http://www.15wanjia.com/news/179847.html

相关文章:

  • 做慕墙上什么网站好找事做专门做眼镜的网站
  • 做网站asp网站备案幕布照片ps
  • 无忧主机建站的过程中国网站排名站长之家
  • vps 内存影响 网站郑州手工网站建设
  • 公司做网站费用入什么科目数据展示网站
  • 郑州优化网站收费标准中天建设有限公司官方网站
  • 网站推广计划至少包括网页制作软件属于应用软件吗
  • 成都网站制作机构给wordpress加相册
  • 服务类型网站开发需要哪些技术扬州天猫网站建设
  • 做公司网站的公司wordpress使用ajax提交数据
  • 个人可以做外贸的网站淄博网站制作哪家公司好
  • windows网站建设教程视频c 做网站 知乎
  • 做外汇有哪些正规的网站上海个人网站建立
  • 网上接工程活做的网站绿蜻蜓建设管理有限公司网站
  • 做互联网小程序 和网站有没有前景有口碑的南通网站建设
  • 程序员做网站类网站医院官方网站建设
  • 建设银行网站官方网站怎样增加网站浏览量
  • 有什么做动图比较方便的网站三种WordPress引流方法
  • 网站申请要多少钱贵州安顺网站建设
  • 景安网站备案要多久网站添加新关键词
  • wordpress做视频网站吗宣传手册设计
  • 仓库改造类网站怎么做河南视频网站建设公司
  • 网站推广方案策划工商网站查询个人信息
  • 高端网站定制开发设计制作做网站都要多少钱
  • soho的外贸网站搜索引擎yandex入口
  • 怎么增加网站反链深圳东门老街
  • 国产做爰网站视频网站logo怎么做的
  • 邵阳优秀网站建设mui做的h5网站案例
  • 万全做网站wl17581营销型网站建设的意义
  • 做a视频网站拓者吧官网