分词器

1、默认的分词器

standard

包括:

  • standard tokenizer:以单词边界进行切分

  • standard token filter:什么都不做

  • lowercase token filter:将所有字母转换为小写

  • stop token filer(默认被禁用):移除停用词,比如a the it等等

2、修改分词器的设置

启用english停用词 token filter

PUT /my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "es_std": {
          "type": "standard",
          "stopwords": "_english_"
        }
      }
    }
  }
}

查看分词器处理后的对比结果:

3、定制化自己的分词器

查看分词器处理结果:

创建mapping时使用分词器

Last updated

Was this helpful?