Bleve 文档翻译计划（2）——术语

作者: 烈日星辰 | 来源:发表于2019-08-21 23:21 被阅读0次

Bleve 文档翻译计划（2）——术语
Bleve 文档翻译计划（1）——入门
Bleve 文档翻译计划（6）——令牌器
Bleve 文档翻译计划（8）—— Index Mapping
Bleve 文档翻译计划（3）——文本分析
Bleve 文档翻译计划（5）——字符过滤器
Bleve 文档翻译计划（7）——令牌过滤器
Bleve 文档翻译计划（4）——文本分析器
知识分享之Golang——Bleve专用术语
IdentityServer4 第一部分第2章术语

术语

Analyzer（分析器）

分析器将输入文本转换成 Token Stream （令牌流）。分析器由一个或多个组成部分组成，形成一个管道。管道由零个或多个字符过滤器组成，后跟一个令牌化器，再后跟零个或多个令牌筛选器。输入文本通过该管道运行后，以生成最终令牌流。

Character Filter（字符过滤器）

字符过滤器会移除输入文本中不需要的字符。例如，如果你输入的文档是 HTML 页面，你可能需要的是移除 HTML 标签。有时字符过滤器用空白替换输入字符，以免干扰剩余文本的原始字节偏移量。

Term（词条）

术语是一系列 unicode 字符。通常，“术语”这个词是用来描述我们写在索引中的东西或者我们在索引中寻找的东西。例如，“mary had a little lamb” 的文本可能会导致在索引中插入三个术语：“mary”, “little”, and “lamb”。

Token（令牌）

令牌是在文档或字段的特定位置出现的术语。

Tokenizer

令牌化器获取输入文本并将其拆分为一个或多个令牌。通常对于自然语言来说，希望在单词边界上进行划分。

Token Filter

令牌过滤器处理令牌流中的每个令牌，并产生另一个令牌流。这可以是未经修改的原始流，也可以添加、修改和删除令牌。

Token Stream

令牌流是一个令牌序列

Text

文本是一系列unicode字符的通用术语。通常，“文本”一词是为尚未分析字符的用例保留的。我们从输入文本开始，然后对其进行分析，生成要存储在索引中的术语。

目前对于一些术语表述还有些问题，请各位看官指正，如果觉得本文有用的话请点赞收藏

网友评论

本文标题：Bleve 文档翻译计划（2）——术语

本文链接：https://www.haomeiwen.com/subject/rvybsctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Bleve 文档翻译计划（2）——术语

术语

Analyzer（分析器）

Character Filter（字符过滤器）

Term（词条）

Token（令牌）

Tokenizer

Token Filter

Token Stream

Text

相关文章

Bleve 文档翻译计划（2）——术语

Bleve 文档翻译计划（1）——入门

Bleve 文档翻译计划（6）——令牌器

Bleve 文档翻译计划（8）—— Index Mapping

Bleve 文档翻译计划（3）——文本分析

Bleve 文档翻译计划（5）——字符过滤器

Bleve 文档翻译计划（7）——令牌过滤器

Bleve 文档翻译计划（4）——文本分析器

知识分享之Golang——Bleve专用术语

IdentityServer4 第一部分第2章术语

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读