Thai Tokenizer（泰语分词器）

thai tokenizer（泰语分词器） 将泰文文本分成单词，使用的是 java 的泰语分割算法。文本中的其他语言按照standard tokenizer 处理。

注意:
不是所有的 JRE 都支持这个分词器，目前已知在Sun/Oracle 和 OpenJDK 运行正常。如果您的应用程序需要完全可移植，可考虑使用ICU Tokenizer来代替。

输出示例

POST _analyze
{
  "tokenizer": "thai",
  "text": "การที่ได้ต้องแสดงว่างานดี"
}

上面的句子会生成如下的词元：

[ การ, ที่, ได้, ต้อง, แสดง, ว่า, งาน, ดี ]

thai tokenizer（泰语分词器）不支持配置。

Last updated 6 years ago

Was this helpful?