术语
Analyzer(分析器)
分析器将输入文本转换成 Token Stream (令牌流)。 分析器由一个或多个组成部分组成,形成一个管道。 管道由零个或多个字符过滤器组成,后跟一个令牌化器,再后跟零个或多个令牌筛选器。输入文本通过该管道运行后,以生成最终令牌流。
Character Filter(字符过滤器)
字符过滤器会移除输入文本中不需要的字符。例如,如果你输入的文档是 HTML 页面,你可能需要的是移除 HTML 标签。有时字符过滤器用空白替换输入字符,以免干扰剩余文本的原始字节偏移量。
Term(词条)
术语是一系列 unicode 字符。通常,“术语”这个词是用来描述我们写在索引中的东西或者我们在索引中寻找的东西。例如,“mary had a little lamb” 的文本可能会导致在索引中插入三个术语:“mary”, “little”, and “lamb”。
Token(令牌)
令牌是在文档或字段的特定位置出现的术语。
Tokenizer
令牌化器获取输入文本并将其拆分为一个或多个令牌。通常对于自然语言来说,希望在单词边界上进行划分。
Token Filter
令牌过滤器处理令牌流中的每个令牌,并产生另一个令牌流。这可以是未经修改的原始流,也可以添加、修改和删除令牌。
Token Stream
令牌流是一个令牌序列
Text
文本是一系列unicode字符的通用术语。通常,“文本”一词是为尚未分析字符的用例保留的。 我们从输入文本开始,然后对其进行分析,生成要存储在索引中的术语。
目前对于一些术语表述还有些问题,请各位看官指正,如果觉得本文有用的话请点赞收藏
网友评论