Thai Tokenizer(泰语分词器)
thai tokenizer(泰语分词器) 将泰文文本分成单词,使用的是 java 的泰语分割算法。文本中的其他语言按照standard tokenizer 处理。
注意:
不是所有的 JRE 都支持这个分词器,目前已知在Sun/Oracle 和 OpenJDK 运行正常。 如果您的应用程序需要完全可移植,可考虑使用ICU Tokenizer来代替。
输出示例
上面的句子会生成如下的词元:
配置
thai tokenizer(泰语分词器)不支持配置。
Last updated