翻译自 Apache Solr Reference Guide
indexing:
solr的索引能够接受不同途径的index,包括XML文件,CSV文件,数据库里的表,或者word,PDF中的信息。
有三种方式可以建立solr的索引,可以用tika中的solr cell 来给word,PDF等office文件来建立索引,可以使用http请求来建,还可以使用提供的标准API,这种方式是最推荐的,如果作为一个应用程序的话。
这里有个最基本的数据结构,一个document包含多个field,一个field最起码有个name,和value,一个document中最起码有个field能够作为id的,当然在solr中他并不要求id是唯一的。
schema.xml跟index关联很大,analysis 这个field的时候会根据xml中的配置,把field的内容进行tokenize,如果有些fields没有被精确定义,他会被忽略或者映射到 dymamic field .
使用index handler上传数据:
在solrconfig.xml中配置了handler的路径,如果对url的路径有修改,别忘了修改这个
<requestHandler name="/update" class="solr.UpdateRequestHandler" />
如果document中有uniq key的时候,新增的文档会替换是这个key的文档,如果不指定uniq key,速度会快点,因为不需要做key的检测,你有u niq key 但是不想让他做check,可以使用{overwrite="false"} 这个参数。
commit操作时让发过去的数据正真生效,推荐solrconfig中的autocommit。
optimize操作可以优化index,提高检索效率,在一个非常大的索引中,优化可能会和一些时间来做,但是通过merge一些小文件成一个大的文件,效率会快很多。
使用集成tika的solr cell可以从xhtml,office的一套中提取内容
DIH:
data import handler: 可以从数据库, RSS,email站点,导入数据。
首先需要在 solrconfig.xml中配置,如下所示:
<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler"> <lst name="defaults"> <str name="config">/path/to/my/DIHconfigfile.xml</str> </lst> </requestHandler>
一个典型的DIHconfigfile.xml如下所示:
<dataConfig> <dataSource driver="org.hsqldb.jdbcDriver" url="jdbc:hsqldb:./example-DIH/hsqldb/ex" user="sa" /> <document> <entity name="item" query="select * from item" deltaQuery="select id from item where last_modified > '${dataimporter.last_index_time}'"> <field column="NAME" name="name" /> <field name="features" column="DESCRIPTION" /> </entity> </document> </dataConfig>
一目了然, item 是表名, queyr是sql, field表示solr中的field跟db中表的字段对应。
数据更新:
一般有两种方式,一种是更新一个或者多个field,不需要重新建立索引,还有一个是在nosql中常见的技术,给予版本号做更新,一种叫做 optimistic concurrency的技术。
相关推荐
solr indexing 介绍solr indexing过程,及常用的上传方法
Apache Solr for Indexing Data
solr测试数据,数据文件
solr in action配套代码和数据,solr官方没有提供数据,可以用这个数据来辅助学习solr。
NULL 博文链接:https://fengqingyuntan.iteye.com/blog/2254145
安装配置solr步骤,包含oracle数据源导入数据配置,以及一些可能遇到的坑
使用多线程方式 通过solrj 接口向solr新增索引信息
solr使用和原理 简单明了的介绍了solr的使用和原理,及其部署方式,适合初学者第一次部署
solr服务开启、停止、重启: cd到solr的bin目录 ./solr start | restart | stop -force ./solr start -p 9923 -force ./solr stop -p 9923 -force ...solr 全量数据迁移方法:(数据结构及数据全部迁移出来了
在本套课程中,我们将全面的讲解Solr,从Solr基础到Solr高级,再到项目实战,基本上涵盖了Solr中所有的知识点。 主讲内容 章节一:Solr基础(上) 1. 环境搭建 2. 核心讲解 3. 数据导入 4. 各种中文分析器 章节二:...
solr安装和使用
JAVA代码数据驾驶舱应用,可通过JDBC、SOLR、ELASTIC等数据源,创建数据集,分析数据图表,生产数据看板
solr.warsolr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包...
ES和solr都是基于Lucence的搜索框架,文档比较2中方案适合的不同场景和优劣
详细solr安装和介绍
Solr定时更新Solr定时更新
Solr Indexing Internals Chapter 2. Customizing the Solr Scoring Algorithm Chapter 3. Solr Internals and Custom Queries Chapter 4. Solr for Big Data Chapter 5. Solr in E-commerce Chapter 6. Solr for ...
solr6.5英文版操作说明文档
solr
我们网站搜索如果数据量大的话,我们使用数据库直接查搜索会很慢,而且由于不能自动分词,结果往往不是很理想,现在我提供了一个例子,内含详细操作步骤和简单增删改查 Solr是一个独立的企业级搜索应用服务器,它...