Luncene介绍

摘要:
如何实现全文检索可以通过使用Lucene来实现。它是Apache下的一个开源全文检索引擎工具包。它提供了一个完整的查询引擎、搜索引擎和部分文本分析引擎。
Fork me on GitHub

1.Luncene介绍

案例:
实现一个文件的搜索功能,通过关键字搜索文件,凡是文件名或文件内容包括关键字文件都需要找出来。还可以根据中文词语进行查询,并且需要支持多个条件查询。
Lucene可以解决

数据分类
  1.结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据
  2.非机构化数据:指不定长或无固定格式的数据,如邮件,word 文档等磁盘上的文件

非结构化数据方法
  1.顺序扫描法
    因为是顺序扫描所以相当慢不建议使用
  2.全文检索
    非结构化数据中的一部分信息提取出来,重新组织,使其变得有一定结构,然后对此有一定结构的数据进行搜索,从而达到搜索相对较快的目地。这部分从非结构化数据中提取出来的然后重新组织的信息,我们称之索引这种先建立索引,再对索引进行搜索的过程就叫全文检索创建索引的过程非常耗时,但是索引一旦创建就可以多次使用,全文检索主要处理的是查询,所以耗时间创建索引是值得的。

如何实现全文检索
  可以使用Lucene实现全文检索,它是 apache下的一个开源代码的全文检索引擎工具包,提供了完整的查询引擎和搜索引擎,部分文本分析引擎。

使用应用场景
  对于数据量大、数据结构不固定的数据可采用全文搜索方式搜索,百度、Google、论坛站内搜索、电商网站站内

luncene是基础 Solr是它的框架 变更的速度很快使用率高

Luncene介绍第2张

  左边索引过程,对搜索的原始内容进行索引创建一个索引库,索引过程包括:确定原始内容要搜索的内容->采集文档->创建文档->分析文档->搜索文档
  右边搜索过程,从索引库中搜索内容的过程包括:用户通过搜索界面->创建查询->执行搜索,从索引库搜索->渲染搜索结果

免责声明:文章转载自《Luncene介绍》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇socket网络编程(四)——epoll多路复用问题模型融合下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

oracle执行计划详解

  一:什么是Oracle执行计划? 执行计划是一条查询语句在Oracle中的执行过程或访问路径的描述 二:怎样查看Oracle执行计划? 因为我一直用的PLSQL远程连接的公司数据库,所以这里以PLSQL为例: ①:配置执行计划需要显示的项: 工具  —>  首选项 —>   窗口类型  —>  计划窗口  —>  根据需要配置...

美团开源 SQL 优化工具 SQLAdvisor

https://www.oschina.net/news/82725/sqladvisor-opensource https://github.com/Meituan-Dianping/SQLAdvisor SQLAdvisor 是由美团点评公司北京 DBA 团队开发维护的 SQL 优化工具:输入SQL,输出索引优化建议,现已开源。 它基于 MySQL 原...

elasticsearch 性能优化

转载: https://www.cnblogs.com/jajian/p/10465519.html 硬件选择 Elasticsearch(后文简称 ES)的基础是 Lucene,所有的索引和文档数据是存储在本地的磁盘中,具体的路径可在 ES 的配置文件../config/elasticsearch.yml中配置,如下: # ---------------...

[心得体会]mysql复习

1. 进入企业需要注意的事情(1) 查看测试服和本地的mysql版本是否一致(2) 确认sql_mode是否和线上版本一致 showVARIABLESLIKE'sql_mode'; (3) mysql sql_mode 常用设置详解: ONLY_FULL_GROUP_BY: 对于GROUP BY聚合操作,如果在SELECT中的列,没有在GROUP BY...

SQL优化(转)

1. 负向条件查询不能使用索引     select * from order where status!=0 and stauts!=1     not in/not exists都不是好习惯     可以优化为in查询:     select * from order where status in(2,3)  2. 前导模糊查询不能使用索引    ...

信息检索导论学习笔记 --第一章 布尔检索

信息检索(informagto retrieval) 是从大规模非结构化数据(通常是文本)的集合中找出满足用户信息需求的资料 文档document 所有文档组成“文档集“(collection), 有时也称“语料库”(corpus) 查询(query) 相关的(relevant) 正确率(precision): 返回结果中 真正和信息需求相关的文档所占比例...