目录

Lucene - 分析( Analysis)

在前面的一章中,我们已经看到Lucene使用IndexWriter使用Analyzer分析Document(s) ,然后根据需要创建/打开/编辑索引。 在本章中,我们将讨论分析过程中使用的各种类型的Analyzer对象和其他相关对象。 了解Analysis过程以及分析器的工作原理可以让您深入了解Lucene如何为文档编制索引。

以下是我们将在适当时候讨论的对象列表。

S.No. 类和描述
1 Token

令牌表示文档中的文本或单词,其中包含相关的详细信息,如元数据(位置,起始偏移,结束偏移,标记类型及其位置增量)。

2 TokenStream

TokenStream是分析过程的输出,它包含一系列标记。 这是一个抽象类。

3 Analyzer

这是每种类型的Analyzer的抽象基类。

4 WhitespaceAnalyzer

该分析器基于空格分割文档中的文本。

5 SimpleAnalyzer

此分析器基于非字母字符拆分文档中的文本,并将文本放在小写中。

6 StopAnalyzer

该分析器与SimpleAnalyzer一样工作,并删除常用词,如'a', 'an', 'the',等。

7 StandardAnalyzer

这是最复杂的分析器,能够处理名称,电子邮件地址等。它会降低每个令牌的大小,并删除常用的单词和标点符号(如果有的话)。

↑回到顶部↑
WIKI教程 @2018