平平庸庸

lucene 学习笔记

上一篇 / 下一篇  2011-01-03 22:51:40 / 个人分类:java

前言:
   刚刚换了单位。但愿这是个正确的选择~老婆也快生了。要做爸爸了。真是一段不平静的日子。大家祝我的老婆和小孩健康吧 :)
   近日项目用到到全文索引解决一高峰访问的性能问题,也可以看成一个容灾的解决方案
 
笔记:
1、lucene-知名的全文搜索解决方案
2、索引生成过程
raw content - acquire content-build document-analyze document-index document
lucene 并不care整个过程,只care build document-analyze document-index document
acquire content的功能有其姐妹项目nutch提供 or tika framework?
 
自己对索引过程中的几个关键概念的理解
document-行的概念
field-列的概念
token-断字(中文断字是个问题)
analysis-断字机制
 
其中field又含有name和value。这个好理解,列名是什么,值是什么。field又可以有三种处理
index -是否建立索引。如果需要建立则对其断字后索引
store term vectors
stored-是否需要存储。存储用以日后搜索出结果的展示。
 
不建立index的field不能search。不建立stored 的field 不能显示。一个index中的document可含有完全不同的内容,比如不同的field,或者相同的field不同的处理,比如 是否index 是否store。
 
一个document可能有很多歌field组成。通常做法是将所有的fields组合成一个新的叫做content的field。然后对其进行index。对其他的field分别进行stored。在查询时查询content,使用其他的fields进行展示。
 
未完~
 

TAG:

 

评分:0

我来说两句

Open Toolbar