`
sharp-fcc
  • 浏览: 105480 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
/* This is the current indexing chain: DocConsumer / DocConsumerPerThread --> code: DocFieldProcessor --> DocFieldConsumer / DocFieldConsumerPerField --> code: DocFieldConsumers / DocFieldConsumersPerField --> code: D ...
在运行时动态加载jar包容易,但是如果想动态替换运行时的类,需要定义自己的classloader , 用自己的classloader 来load这个类。具体代码如下。 public class UClassloader extends URLClassLoader{ public UClassloader(URL[] urls) { super(urls); } public static void main(String args[]) throws IOException, SecurityException, ClassNotFoundExcepti ...
lucene为了能够是信息存储的空间更小,访问速度更快,用了一些小技巧,下面介绍一些技巧: 1.  Prefix + Suffix  在保存Term Dictionary的时候,会保存几乎所有的词,这样索引文件会非常大,当某个词跟前面一个词拥有相同前缀的时候,后面的词仅仅保存前缀在词中得偏移,以及除了前缀之外的字符串。 比如存储如下几个词: term,  termagancy,  termagant, terminal . 按照正常的方法来存储,需要 4 + 10 + 9 + 8 = 29. 如果使用这个技巧, termagancy 被存储成  [4][a][g][a][n][c] ...
lucene 的操作主要分成 indexing 和 searching , 两个操作也就完成了整个闭环操作,咱们先从这个indexing说起。 class IndexWriter 可以说是lucene暴露给上层应用的一个类。上层应用程序通过这个类打开lucene的索引世界。 通过了解这个类得成员变量来了解这个类到底是干什么的,有几个比较重要的对象: private final Directory directory; // where this index resides private final Analyzer analyzer; // how to analyze ...
1。 加权限: grant alter,create,select,insert,update,delete,index on recommend.* to growth@10.1.1.1 Identified by "growth"; flush privileges;  2.   在更新这条数据的时候更新时间: alter table feed change update_time update_time TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP;  3 ...
首先使用  yum 安装  输入命令: yum install httpd  php 然后理论上httpd 已经把 php modul加进去了 没加请手动添加: LoadModule php5_module modules/libphp5.so  想要在html中执行php 代码,表示以下后缀名可以使用php引擎,请输入: AddType application/x-httpd-php .php AddType application/x-httpd-php .htm AddType application/x-httpd-php .html  这样就ok了。   多域名 ...
名词解释: document 包含一系列的fields field是一系列terms的代号 term是一系列的bytes   倒排索引: 这个索引存储了关于这个term的一些统计,为什么叫做倒排索引,因为这个能够列出包含这个term的所有文档,这是正常关系的一个逆,正常关系是一个文档列出里面有哪些词。   fields的类型: 一个field能够被stored,如果这么设置,他会被保存到一个非倒排的索引中。 一个field会被用来切词以方便更好的索引。   segments: apache的索引包含多个子索引,一个segment是全套的索引,可以被独立的搜索。 整 ...
我们日常生活中的数据可以分成两种,一种是结构化数据,还有一种是非结构化数据。 结构化数据就是固定格式和有限长度的数据,比如数据库和元数据等等。 非结构化就是无固定格式和不定长的数据,比如邮件和word文档。 还有介于两者之间的,半结构化数据,比如XML,html等,看具体需求可以有不同的处理方法。 非结构化数据还可以叫做全文数据。搜索引擎一般是针对这种数据来索引。 一种最直观的方法可以顺序扫瞄,速度非常慢。还有一种方法,我们把非结构数据中的一些信息抽取出来,然后变成结构化的,从而达到搜索相对较快的目的。重新抽取出来的信息我们称之为索引。举个例子,字典的拼音表就相当于索引,对于每个字 ...
删除5天以上的log:  find deploy/log -type f -ctime +5 -exec rm -f {} \;   替换文件夹下指定文件字符串:   find . -name "*.html" | xargs sed -i "s/xxxx/oooo/g"   注意特殊字符的转义 如 [{($  比如      {:U('item/index',array('id'=>$item['id']))}   要用egrep 的话  得   egrep --color "\{:U\('item/index',arr ...
ssh-keygen -t rsa (连续三次回车,即在本地生成了公钥和私钥,不设置密码ssh root@B "mkdir .ssh;chmod 0700 .ssh" (需要输入密码) scp ~/.ssh/id_rsa.pub root@B:~/.ssh (需要输入密码) 在B上的命令: touch /root/.ssh/authorized_keys (如果已经存在这个文件, 跳过这条) cat /root/.ssh/id_rsa.pub  >> /root/.ssh/authorized_keys (将id_rsa.pub的内容追加到 authorize ...
翻译自 Apache Solr Reference Guide    solr提供了一个十分灵活,可拓展的搜索特性,当我们发送一个请求的时候,一个search query 被一个叫做requst handler处理,solr提供许多类型的request handler,有的是为了处理搜索请求的,还有一些 ...
原文:http://www.cnblogs.com/DreamSea/archive/2012/01/11/JavaThread.html  不废话直接上图: 1)优先级(priority) 每个类都有自己的优先级,一般property用1-10的整数表示,默认优先级是5,优先级最高是10;优先级高的线程并不一定比优先级低的线程执行的机会高,只是执行的机率高;默认一个线程的优先级和创建他的线程优先级相同; 2)Thread.sleep()/sleep(long millis) 当前线程睡眠/millis的时间(millis指定睡眠时间是其最小的不执行时间,因为sleep( ...
翻译自 Apache Solr Reference Guide   indexing: solr的索引能够接受不同途径的index,包括XML文件,CSV文件,数据库里的表,或者word,PDF中的信息。 有三种方式可以建立solr的索引,可以用tika中的solr cell 来给word,PDF等office文件来建立索引,可以使用http请求来建,还可以使用提供的标准API,这种方式是最推荐的,如果作为一个应用程序的话。 这里有个最基本的数据结构,一个document包含多个field,一个field最起码有个name,和value,一个document中最起码有个field能够 ...
翻译自 Apache Solr Reference Guide   Analyzer: analyzer负责检查这个field,然后生成一个token流,一般作为fieldType的一个字节点存在,比如: <analyzer type="query"> <tokenizer class="solr.WhitespaceTokenizerFactory"/> ...
翻译自 Apache Solr Reference Guide    solr一个最基本的设计原则是简洁, 你告诉他很多信息,然后问他一些问题,他会给你回答的一段信息,你喂给他的这部分叫做 indexing, 你问他的问题叫做 query。 一个理解solr的方法是举个例 ...
Global site tag (gtag.js) - Google Analytics