solr admin UI

博客分类：

search

翻译自 Apache Solr Reference Guide 如果用solr自带的jetty来运行程序，http://hostname:8983/solr/ 是主界面。左边是logo和菜单，以此作用是，看一些系统信息，系统打出来的log，每一个Core的信息，java system的参数，线程运行情况。在每一个ui的最底端，是一些帮助文档连接到一些官网，关于amdin ui的。如果运行在cloud模式下面，会出现cloud按钮，显示拓扑结构。 core admin，管理应用下面的core，至于core这个概念，个人理解是一个不可分割的整体 ...

2014-01-07 14:36
浏览 971
评论(1)
分类:开源软件

进程cpu过高问题排查

博客分类：

linux script

load高 cpu高线程

一，结合linux基本命令和jmap,jstack等工具。根据top命令，发现PID为28555的Java进程占用CPU高达200%，出现故障。通过ps aux | grep PID命令，可以进一步确定是哪个进程出现了问题。怎么定位到具体线程或者代码呢？显示当前java进程的线程列表 ps -mp pid -o THREAD,tid,time 从中可以找到了耗时最高的线程28802。其次将需要的线程ID转换为16进制格式：

2013-11-18 15:34
浏览 1192
评论(0)
分类:开源软件

mahout中LDA简介以及示例

博客分类：

模型

mahout LDA cvb topic model 主题模型

翻译自： https://cwiki.apache.org/confluence/display/MAHOUT/Latent+Dirichlet+Allocation 简介： Latent Dirichlet Allocation (Blei et al, 2003)是一个强大的学习方法将words聚到一些topics里面，以及把一些document表示成topics的一些集合。主题模型就是document在topics上的概率分布，和words在topics上的分布的一个层次贝叶斯模型，举个例子，一个topic是包括“体育”，“篮球”，"全垒打"等词，一 ...

2013-11-18 13:07
浏览 4236
评论(1)
分类:互联网

awk and hadoop 之reducer

博客分类：

模型

awk hadoop reduce reducer 合并

配合上面一篇 mapper篇，这篇主要讲在reducer的时候怎么处理两个文件中的内容，在mapper中我们给每个文件中的内容打了 tag ，在第二个字段，然后就能处理了，只要key一样，就可以弄到一个文件中去。 awk -F '\t' '{ id = $1; tag = $2; if (0 == tag){ idPre = $1; }else (1 == tag && id == idPre){ print $3"\t"id; } }'

2013-11-07 15:50
浏览 801
评论(0)
分类:互联网

awk join操作

博客分类：

linux script

awk join 多文件处理读取文件

有没有遇到场景，要把两个集合做一个join操作，用awk我们可以很方便的实现这个效果，设计到awk如何从两个文件中读取内容. 直接上代码： awk -F ',' 'BEGIN{ while (getline < "o2.txt" > 0){ a[$1]=1; } }{ if ($1 i ...

2013-10-28 14:53
浏览 1066
评论(0)
分类:移动开发

solr 跑起来

博客分类：

search

solr tomcat hello world 搭建多实例

一个项目要求，需要做一个站内搜索，由于偏爱apache 的东西，由于喜欢他们的wiki，所以选择了solr，所以选择了tomcat 作为容器。我们的数据一般都放在db中，所以在初始化的时候，我们必须从数据库中倒入数据，作为原始的积累。好的，三步走，跟我来。 1. 从apache的官网下载solr 和 tomcat 最新的包，并解压。 2. 在solr的example中自带了简化版的jetty，直接运行，不过我们要搭建自己的实例，必须得模仿example中的内容了。 3. 在example/webapps目录下面找到solr.war，copy到tomcat的we ...

2013-10-14 16:54
浏览 844
评论(0)
分类:开源软件

awk 常用函数

博客分类：

linux script

awk 字符串常用 mktime sub

Copy From: http://blog.csdn.net/xgdofull/article/details/5429858 awk提供了许多强大的字符串函数，见下表：awk内置字符串函数gsub(r,s) 在整个$0中用s替代rgsub(r,s,t) 在整个t中用s替代rindex(s,t) 返回s中字符串t的第一位置length(s) ...

2013-09-22 18:29
浏览 995
评论(0)
分类:编程语言

awk and hadoop之mapper

博客分类：

模型

hadoop awk shell map

1. 在awk 中mapper的时候我们经常会合并不同的文件，取我们想要的不同的字段。 awk -F "\t" ' { filename = ENVIRON["mapreduce_map_input_file"]; if (index(filename, "xxxx") > 0) { // xxx } else { //xxxx } } 这样来取文件的名字，来判断当前处理的行属于哪个文件，以此进行相应的处理。 2. 在hadoop 中我们经常需 ...

2013-08-07 17:19
浏览 1041
评论(0)
分类:移动开发

正则表达式优化

博客分类：

util

正则表达式优化环视固化分组效率

正则表达式的优化在Jeffrey E. F. Friedl 的<<精通正则表达式>>中提到了几种技巧。今天着重说一种比较实用的。比较简单的：在类似 .* 或者 [\s\S]＊中匹配的时候，量词* 默认是贪婪的，启用最大匹配模式� ...

2013-07-22 12:35
浏览 1218
评论(0)
分类:互联网

正则表达式元字符备查

博客分类：

util

正则表达式元字符

将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如，“n”匹配字符“n”。“\n”匹配一个换行符。串行“\\”匹配“\”而“\(”则匹配“(”。^ 匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性，^也匹配“\n”或“\r”之后的位置。$ 匹配输入字符串的结束位置。如果设置了RegExp对象的Multiline属性，$也匹配“\n”或“\r”之前的位置。* 匹配前面的子表达式零次或多次。例如，zo*能匹配“z”以及“zoo”。*等价于{0,}。+ 匹配前面的子表达式一次或多次。例如，“zo+”能匹配“zo”以及“zo ...

2013-07-21 19:36
浏览 669
评论(0)
分类:企业架构

linux java 线上问题排查

博客分类：

linux script

linux shell.java 问题排查

转自： http://www.myexception.cn/operating-system/415201.html 线上故障问题排查技能记载一 1. pgrep 查询进程的工具 pgrep 是通过程序的名字来查询进程的工具，一般是用来判断程序是否正在运行。在服务器的配置和管理中，这个工具常被应用，简单明了用法: pgrep 参数选项程序名 eg: pgrep java #查询出JAVA进程的进程号常用参数:-l 列出程序名和进程ID-o 进程起始的ID-n 进程终止的ID2. 汇总某个进程下所有的线程数方法一 :ls /proc/20967/task/|wc -l : ...

2013-06-17 19:30
浏览 1203
评论(0)
分类:互联网

postfix 扣下退信

博客分类：

util

postfix relay 退信丢弃

有时候我们希望往外的发的邮件给你退回来的邮件接下，但是不做处理。这时候需要设置： 1. 在master.cf中设置新的传输法： ondemand unix - - n - - smtp 2. 要求postfix自动延缓任何通过ondemand递送的邮件。只要将新设的 ondemand传输法列在main.cf的defer_transports参数中，就可以达到自动延缓的效果。 defer_transports = ondemand 3. 确定 transport_maps 参数指向我们的传输表： transport_maps = hash: ...

2013-06-14 11:50
浏览 1130
评论(0)
分类:开源软件

linux 重命名 rename

博客分类：

linux script

linux awk rename 批量修改名字

废话不说直接上脚本，本人亲测好使。 #!/bin/bash #script_name:rename_ALL find ./ -type f | grep 'gif' | sed -n 's/.\/\///p'| awk ' { oldname=$1; sub("a","n&quo ...

2013-06-09 12:08
浏览 748
评论(0)
分类:编程语言

shell stdin 变参数

博客分类：

linux script

shell stdin param 管道参数

有时候我们想让一个标准输入流变成下一个脚本的参数，就可以使用 xargs echo ok | xargs sh ok.sh 这个时候 ok.sh 的参数就是 ok 同理，find 也是一样 find / -type f -print | xargs grep "device"

2013-06-04 12:40
浏览 768
评论(0)
分类:编程语言

java在命令行中加入从classpath加载resource

博客分类：

java基础

java classpath resource 命令行

有很多时间需要将 resource 加入到 classpath中如一些配置文件，如果写死配置文件的路径，不方便迁移，不够优雅，所以我们必须在代码中写相对路径，我一般通过 getClass().getResourceAsStream("/xxx.txt") 来获取这些配置文件, 通过 classloader 也是可以的。在一般生产环境中，java程序都是通过命令行写成的，命令行的写法尤其重要。正确的写法是： java -cp xx.jar:./lib/*:./conf xx.xx.main lib 是依赖的jar包放里 ...

2013-05-29 12:20
浏览 1758
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

solr admin UI

进程cpu过高问题排查

mahout中LDA简介以及示例

awk and hadoop 之reducer

awk join操作

solr 跑起来

awk 常用函数

awk and hadoop之mapper

正则表达式优化

正则表达式元字符备查

linux java 线上问题排查

postfix 扣下退信

linux 重命名 rename

shell stdin 变参数

java在命令行中加入从classpath加载resource

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>