3.3.6.Character Filters(字符过滤器)
Characterfilters(字符过滤器)用于字符流传递到分词器(tokenizer)之前对它进行预处理。
一个Characterfilters(字符过滤器)接收原始文本作为字符流,通过adding(添加),removing(删除)或changing(更改)字符来转换流。例如,可以使用字符过滤器将Arabic numerals(阿拉伯数字)(٠١٢٣٤٥٦٧٨٩)转换为和它等价的Latin(拉丁数字)(0123456789),也可以用于从字符流中剥离<b>等HTML元素。
Elasticsearch内置了许多的characterfilters(字符过滤器),可以用来构建 custom analyzers(自定义分词器)。
该html_strip字符串过滤器可以删除类似<b>的HTML元素和解码类似于 &这样的 HTML实体。
该mapping字符串过滤器可以将所有指定的字符串替换成特定的字符串。
Pattern Replace Character Filter
该pattern_replace字符串过滤器可以将满足正则表达式的所有字符串替换成特定的字符串
Last updated