检索

作者: 名丶五十 | 来源:发表于2019-01-15 15:03 被阅读0次

【16年一周一专题】——专题二《信息检索策略》
Hibernate学习笔记 | Hibernate检索策略
如何进行法律检索
商品检索
google检索功能速查表
【文魁大脑实用记忆第五期】贤派雍丹妮第九次案例高效学习
【基础】Hibernate 基础面试题
读书笔记
ElasticSearch-搜索查询
iOS 百度地图v2.9.1 API 的详细使用(四)

全文检索

全文检索不同于特定字段的模糊查询，使用全文检索的效率更高，并且能够对于中文进行分词处理。

haystack：全文检索的框架，支持whoosh、solr、Xapian、Elasticsearc四种全文检索引擎，点击查看官方网站。
whoosh：纯Python编写的全文搜索引擎，虽然性能比不上sphinx、xapian、Elasticsearc等，但是无二进制包，程序不会莫名其妙的崩溃，对于小型的站点，whoosh已经足够使用，点击查看whoosh文档。
jieba：一款免费的中文分词包，如果觉得不好用可以使用一些收费产品。

工具

# .virtualenvs 
pip install django-haystack
pip install whoosh
pip install jieba

环境配置

# django应用注册
# Application definition
INSTALLED_APPS = (
    ...
    'haystack',
)
....
# 配置文件（引擎，索引路径），
# conf
HAYSTACK_CONNECTIONS = {
    'default': {
        # engine
        'ENGINE': 'haystack.backends.whoosh_cn_backend.WhooshEngine',
        # 索引文件路径
        'PATH': os.path.join(BASE_DIR, 'whoosh_index'),
    }
}
# 设置数据更新时，自动更新索引
HAYSTACK_SIGNAL_PROCESSOR = 'haystack.signals.RealtimeSignalProcessor'

索引文件的生成

1.在对应应用目录下新建一个search_indexes.py文件，在其中定义一个模型索引类。例：

image.png

2.在templates下面新建目录search/indexes/goods。

image.png

3.此目录下面新建一个文件goodssku_text.txt并编辑内容如下。

image.png
4.生成索引文件。

# 项目下生成索引文件
python manager rebuild_index

使用

1.配置url

image.png

2.搜索时表单的设置

image.png

检索结果

1.搜索出结果后，haystack会把搜索出的结果传递给templates/search目录下的search.html，传递的上下文包括：
query：搜索关键字
page：当前页的page对象 –>遍历page对象，获取到的是SearchResult类的实例对象，对象的属性object才是模型类的对象。
paginator：分页paginator对象
2.HAYSTACK_SEARCH_RESULTS_PER_PAGE 可以控制每页显示数量。

# 每页显示1个
HAYSTACK_SEARCH_RESULTS_PER_PAGE = 1

分词方式的改变，使用 jieba分词

1.安装jieba分词模块
pip install jieba
2.找到虚拟环境py_django下的haystack目录
/home/python/.virtualenvs/bj17_py3/lib/python3.5/site-packages/haystack/backends/
3.目录中创建ChineseAnalyzer.py文件

import jieba
from whoosh.analysis import Tokenizer, Token

class ChineseTokenizer(Tokenizer):
    def __call__(self, value, positions=False, chars=False,
                 keeporiginal=False, removestops=True,
                 start_pos=0, start_char=0, mode='', **kwargs):
        t = Token(positions, chars, removestops=removestops, mode=mode, **kwargs)
        seglist = jieba.cut(value, cut_all=True)
        for w in seglist:
            t.original = t.text = w
            t.boost = 1.0
            if positions:
                t.pos = start_pos + value.find(w)
            if chars:
                t.startchar = start_char + value.find(w)
                t.endchar = start_char + value.find(w) + len(w)
            yield t

def ChineseAnalyzer():
    return ChineseTokenizer()

4.复制whoosh_backend.py文件，改为如下名称。
whoosh_cn_backend.py
5.打开上面.py文件，作如下改动

from .ChineseAnalyzer import ChineseAnalyzer
# 查找
# analyzer=StemmingAnalyzer()
# 改为
analyzer=ChineseAnalyzer()

6.修改settings.py文件中的配置项

image.png

7.重新生成索引文件
python manage.py rebuild_index

网友评论

本文标题：检索

本文链接：https://www.haomeiwen.com/subject/ydhydqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

检索

全文检索

工具

环境配置

索引文件的生成

使用

检索结果

分词方式的改变，使用 jieba分词

相关文章

【16年一周一专题】——专题二《信息检索策略》

Hibernate学习笔记 | Hibernate检索策略

如何进行法律检索

商品检索

google检索功能速查表

【文魁大脑实用记忆第五期】贤派雍丹妮第九次案例高效学习

【基础】Hibernate 基础面试题

读书笔记

ElasticSearch-搜索查询

iOS 百度地图v2.9.1 API 的详细使用(四)

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读