lucene 4.6 之indexing 之 IndexChain，索引数据结构

博客分类：

search

/* This is the current indexing chain: DocConsumer / DocConsumerPerThread --> code: DocFieldProcessor --> DocFieldConsumer / DocFieldConsumerPerField --> code: DocFieldConsumers / DocFieldConsumersPerField --> code: D ...

2014-04-06 21:17
浏览 1007
评论(0)
分类:开源软件

java class reload 动态加载

博客分类：

java基础

java classloader reload URLClassloader 动态加载

在运行时动态加载jar包容易，但是如果想动态替换运行时的类，需要定义自己的classloader , 用自己的classloader 来load这个类。具体代码如下。 public class UClassloader extends URLClassLoader{ public UClassloader(URL[] urls) { super(urls); } public static void main(String args[]) throws IOException, SecurityException, ClassNotFoundExcepti ...

2014-04-03 22:29
浏览 909
评论(0)
分类:编程语言

lucene 存储，访问小技巧

博客分类：

search

lucene 存储格式跳表 skip list

lucene为了能够是信息存储的空间更小，访问速度更快，用了一些小技巧，下面介绍一些技巧： 1. Prefix + Suffix 在保存Term Dictionary的时候，会保存几乎所有的词，这样索引文件会非常大，当某个词跟前面一个词拥有相同前缀的时候，后面的词仅仅保存前缀在词中得偏移，以及除了前缀之外的字符串。比如存储如下几个词： term, termagancy, termagant, terminal . 按照正常的方法来存储，需要 4 + 10 + 9 + 8 = 29. 如果使用这个技巧， termagancy 被存储成 [4][a][g][a][n][c] ...

2014-03-30 17:58
浏览 1002
评论(0)
分类:开源软件

lucene 4.6 之indexing 之 IndexWriter, DocumentWriter

博客分类：

search

lucene indexing IndexWriter DocumentWriter DocConsumer

lucene 的操作主要分成 indexing 和 searching , 两个操作也就完成了整个闭环操作，咱们先从这个indexing说起。 class IndexWriter 可以说是lucene暴露给上层应用的一个类。上层应用程序通过这个类打开lucene的索引世界。通过了解这个类得成员变量来了解这个类到底是干什么的，有几个比较重要的对象： private final Directory directory; // where this index resides private final Analyzer analyzer; // how to analyze ...

2014-03-28 10:31
浏览 986
评论(0)
分类:企业架构

实用sql语句

博客分类：

util

sql mysql grant flush privileges

1。加权限： grant alter,create,select,insert,update,delete,index on recommend.* to growth@10.1.1.1 Identified by "growth"; flush privileges; 2. 在更新这条数据的时候更新时间： alter table feed change update_time update_time TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP; 3 ...

2014-03-03 20:52
浏览 595
评论(0)
分类:Web前端

centos 搭建 httpd 服务器以及配置多域名反向代理

博客分类：

开源框架

httpd apache 多域名子域名反向代理

首先使用 yum 安装输入命令： yum install httpd php 然后理论上httpd 已经把 php modul加进去了没加请手动添加： LoadModule php5_module modules/libphp5.so 想要在html中执行php 代码，表示以下后缀名可以使用php引擎,请输入： AddType application/x-httpd-php .php AddType application/x-httpd-php .htm AddType application/x-httpd-php .html 这样就ok了。多域名 ...

2014-02-28 18:55
浏览 2589
评论(0)
分类:Web前端

lucene 4.6 之索引文件格式

博客分类：

search

lucene index file formats 索引文件格式 lucene 4

名词解释： document 包含一系列的fields field是一系列terms的代号 term是一系列的bytes 倒排索引：这个索引存储了关于这个term的一些统计，为什么叫做倒排索引，因为这个能够列出包含这个term的所有文档，这是正常关系的一个逆，正常关系是一个文档列出里面有哪些词。 fields的类型：一个field能够被stored，如果这么设置，他会被保存到一个非倒排的索引中。一个field会被用来切词以方便更好的索引。 segments: apache的索引包含多个子索引，一个segment是全套的索引，可以被独立的搜索。整 ...

2014-02-26 19:50
浏览 1140
评论(0)
分类:开源软件

lucene 之全文检索概述

博客分类：

search

lucene 全文检索概述

我们日常生活中的数据可以分成两种，一种是结构化数据，还有一种是非结构化数据。结构化数据就是固定格式和有限长度的数据，比如数据库和元数据等等。非结构化就是无固定格式和不定长的数据，比如邮件和word文档。还有介于两者之间的，半结构化数据，比如XML，html等，看具体需求可以有不同的处理方法。非结构化数据还可以叫做全文数据。搜索引擎一般是针对这种数据来索引。一种最直观的方法可以顺序扫瞄，速度非常慢。还有一种方法，我们把非结构数据中的一些信息抽取出来，然后变成结构化的，从而达到搜索相对较快的目的。重新抽取出来的信息我们称之为索引。举个例子，字典的拼音表就相当于索引，对于每个字 ...

2014-02-05 16:22
浏览 541
评论(0)
分类:开源软件

find 用法以及经典案例

博客分类：

linux script

linux find.ctime grep 转义

删除5天以上的log： find deploy/log -type f -ctime +5 -exec rm -f {} \; 替换文件夹下指定文件字符串： find . -name "*.html" | xargs sed -i "s/xxxx/oooo/g" 注意特殊字符的转义如 [{($ 比如 {:U('item/index',array('id'=>$item['id']))} 要用egrep 的话得 egrep --color "\{:U\('item/index',arr ...

2014-02-05 10:25
浏览 971
评论(0)
分类:Web前端

ssh 免密码登陆

博客分类：

linux script

linux ssh 免密码登陆

ssh-keygen -t rsa (连续三次回车,即在本地生成了公钥和私钥,不设置密码ssh root@B "mkdir .ssh;chmod 0700 .ssh" (需要输入密码) scp ~/.ssh/id_rsa.pub root@B:~/.ssh (需要输入密码) 在B上的命令: touch /root/.ssh/authorized_keys (如果已经存在这个文件, 跳过这条) cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys (将id_rsa.pub的内容追加到 authorize ...

2014-01-26 10:51
浏览 727
评论(0)
分类:移动开发

solr searching 过程解析

博客分类：

search

solr relevance 相关性 searching 搜索过程

翻译自 Apache Solr Reference Guide solr提供了一个十分灵活，可拓展的搜索特性，当我们发送一个请求的时候，一个search query 被一个叫做requst handler处理，solr提供许多类型的request handler，有的是为了处理搜索请求的，还有一些� ...

2014-01-10 21:34
浏览 976
评论(0)
分类:互联网

Thread 状态详解

博客分类：

多线程
java基础

thread waiting blocked timed waiting

原文：http://www.cnblogs.com/DreamSea/archive/2012/01/11/JavaThread.html 不废话直接上图： 1）优先级（priority）每个类都有自己的优先级，一般property用1-10的整数表示，默认优先级是5，优先级最高是10；优先级高的线程并不一定比优先级低的线程执行的机会高，只是执行的机率高；默认一个线程的优先级和创建他的线程优先级相同； 2）Thread.sleep()/sleep(long millis) 当前线程睡眠/millis的时间（millis指定睡眠时间是其最小的不执行时间，因为sleep( ...

2014-01-09 12:04
浏览 510
评论(0)
分类:编程语言

solr indexing 和基本的数据操作

博客分类：

search

solr indexing data operation 数据操作索引

翻译自 Apache Solr Reference Guide indexing： solr的索引能够接受不同途径的index，包括XML文件，CSV文件，数据库里的表，或者word，PDF中的信息。有三种方式可以建立solr的索引，可以用tika中的solr cell 来给word，PDF等office文件来建立索引，可以使用http请求来建，还可以使用提供的标准API，这种方式是最推荐的，如果作为一个应用程序的话。这里有个最基本的数据结构，一个document包含多个field，一个field最起码有个name，和value，一个document中最起码有个field能够 ...

2014-01-09 12:00
浏览 1074
评论(0)
分类:开源软件

理解solr中的 Analyzer,Tokenizer,Filter

博客分类：

search

solr analyzer tokenizer filter

翻译自 Apache Solr Reference Guide Analyzer： analyzer负责检查这个field，然后生成一个token流，一般作为fieldType的一个字节点存在，比如： <analyzer type="query"> <tokenizer class="solr.WhitespaceTokenizerFactory"/> ...

2014-01-08 18:24
浏览 2115
评论(0)
分类:开源软件

solr Document,Fields,Schema设计概况

博客分类：

search

solr Document Fields Schema

翻译自 Apache Solr Reference Guide solr一个最基本的设计原则是简洁，你告诉他很多信息，然后问他一些问题，他会给你回答的一段信息，你喂给他的这部分叫做 indexing，你问他的问题叫做 query。一个理解solr的方法是举个例� ...

2014-01-08 00:25
浏览 1348
评论(0)
分类:开源软件

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

lucene 4.6 之indexing 之 IndexChain，索引数据结构

java class reload 动态加载

lucene 存储，访问小技巧

lucene 4.6 之indexing 之 IndexWriter, DocumentWriter

实用sql语句

centos 搭建 httpd 服务器以及配置多域名反向代理

lucene 4.6 之索引文件格式

lucene 之全文检索概述

find 用法以及经典案例

ssh 免密码登陆

solr searching 过程解析

Thread 状态详解

solr indexing 和基本的数据操作

理解solr中的 Analyzer,Tokenizer,Filter

solr Document,Fields,Schema设计概况

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>