3.3.分析器与定义自己的分析器(Analyzer)

经过基础,应该了解到,分析器(Analyzer) 由一个分词器(tokenizer) 和 零个或多个词语过滤器(token filter)组成,也可以有零个或多个字符映射器(character mapper)

下面的字符过滤器 = 字符映射器(character mapper)

其工作流程是:

  • 首先,字符过滤器对分析(analyzed)文本进行过滤和处理,例如从原始文本中移除HTML标记,根据字符映射替换文本等,

  • 过滤之后的文本被分词器接收,分词器把文本分割成标记流,也就是一个接一个的标记,

  • 然后,标记过滤器对标记流进行过滤处理,例如,移除停用词,把词转换成其词干形式,把词转换成其同义词等,

  • 最终,过滤之后的标记流被存储在倒排索引中;

  • ElasticSearch引擎在收到用户的查询请求时,会使用分析器对查询条件进行分析,根据分析的结构,重新构造查询,以搜索倒排索引,完成全文搜索请求,

默认系统已经存在了一些分析器.

资料:

分析器

Last updated