lucene 学习笔记

上一篇 / 下一篇 2011-01-03 22:51:40 / 个人分类：java

前言：

刚刚换了单位。但愿这是个正确的选择~老婆也快生了。要做爸爸了。真是一段不平静的日子。大家祝我的老婆和小孩健康吧：）

近日项目用到到全文索引解决一高峰访问的性能问题，也可以看成一个容灾的解决方案

笔记：

1、lucene-知名的全文搜索解决方案

2、索引生成过程

raw content - acquire content-build document-analyze document-index document

lucene 并不care整个过程，只care build document-analyze document-index document

acquire content的功能有其姐妹项目nutch提供 or tika framework?

自己对索引过程中的几个关键概念的理解

document-行的概念

field-列的概念

token-断字（中文断字是个问题）

analysis-断字机制

其中field又含有name和value。这个好理解，列名是什么，值是什么。field又可以有三种处理

index -是否建立索引。如果需要建立则对其断字后索引

store term vectors

stored-是否需要存储。存储用以日后搜索出结果的展示。

不建立index的field不能search。不建立stored 的field 不能显示。一个index中的document可含有完全不同的内容，比如不同的field，或者相同的field不同的处理，比如是否index 是否store。

一个document可能有很多歌field组成。通常做法是将所有的fields组合成一个新的叫做content的field。然后对其进行index。对其他的field分别进行stored。在查询时查询content，使用其他的fields进行展示。

未完~

TAG: