lucene 存储，访问小技巧

sharp-fcc

浏览: 106308 次
性别:
来自: 北京

最近访客更多访客>>

wangyy

u012363178

plisking

xhinliang

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

lucene 存储格式跳表 skip list

lucene为了能够是信息存储的空间更小，访问速度更快，用了一些小技巧，下面介绍一些技巧：

1. Prefix + Suffix

在保存Term Dictionary的时候，会保存几乎所有的词，这样索引文件会非常大，当某个词跟前面一个词拥有相同前缀的时候，后面的词仅仅保存前缀在词中得偏移，以及除了前缀之外的字符串。

比如存储如下几个词： term, termagancy, termagant, terminal .

按照正常的方法来存储，需要 4 + 10 + 9 + 8 = 29.

如果使用这个技巧， termagancy 被存储成 [4][a][g][a][n][c][y] 这样算下来一共使用了 4 + 7 + 2 + 5 = 18.

节省了 11 个char 的存储空间。

2. Delta

在lucene中需要保存很多整型的信息，比如文档的id， Term的位置信息，当文档渐渐变多的时候，这些数字会越来越大，所占用的Byte也越来越多，Delta的意思就是两个整数，仅仅保存两个整数的差值.

比如： 5 9 11 存储为 5 4 2

3. markbit

某个值a后面可能存在b，也可能不存在，需要一个标志位来表示是否存在b。

在lucene 中把a的值左移一位，空出最后一位作为标志位，表示后面是否跟随b，在这种情况下,a/2才是真正的值。

4. skip list

为了提高查询速度，lucene中有很多地方都是用了这种数据结构。

skip list 具有如下的特征：

1. 元素是按书序排列的，比如字母序或者从小到大。

2. 跳跃表是有间隔的，间隔是事先配置好的。

3. 跳跃表是有层次的，每一层指定间隔的元素构成上一层。

lucene中得定义：

间隔：上层两个元素之差，再加一。

层数：不包括原来链表层，上面的层从0来时累加。

跳跃表比顺序查询，大大调高了搜索的效率.

比如查找元素72,应用跳表之后只需要访问第一层的50 ，然后发现50后面没有元素，然后访问第二层的94，然后访问原链表，找到72 ,只要访问3个元素即可。

查看图片附件

0
顶

0
踩

分享到：

java class reload 动态加载 | lucene 4.6 之indexing 之 IndexWriter, ...

2014-03-30 17:58
浏览 1013
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论