`
sharp-fcc
  • 浏览: 105486 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
翻译自 Apache Solr Reference Guide     如果用solr自带的jetty来运行程序,http://hostname:8983/solr/  是主界面。 左边是logo和菜单, 以此作用是,看一些系统信息,系统打出来的log,每一个Core的信息,java system的参数,线程运行情况。   在每一个ui的最底端,是一些帮助文档连接到一些官网,关于amdin ui的。   如果运行在cloud模式下面, 会出现cloud按钮,显示拓扑结构。   core admin,管理应用下面的core, 至于core这个概念,个人理解是一个不可分割的整体 ...
一,结合linux基本命令和jmap,jstack等工具。  根据top命令,发现PID为28555的Java进程占用CPU高达200%,出现故障。   通过ps aux | grep PID命令,可以进一步确定是哪个进程出现了问题。怎么定位到具体线程或者代码呢?  显示当前java进程的线程列表 ps -mp pid -o THREAD,tid,time 从中可以找到了耗时最高的线程28802。  其次将需要的线程ID转换为16进制格式:
翻译自: https://cwiki.apache.org/confluence/display/MAHOUT/Latent+Dirichlet+Allocation   简介: Latent Dirichlet Allocation (Blei et al, 2003)是一个强大的学习方法将words聚到一些topics里面,以及把一些document表示成topics的一些集合。 主题模型就是document在topics上的概率分布,和words在topics上的分布的一个层次贝叶斯模型,举个例子,一个topic是包括“体育”,“篮球”,"全垒打"等词,一 ...
配合上面一篇 mapper篇,这篇主要讲在reducer的时候怎么处理两个文件中的内容,在mapper中我们给每个文件中的内容打了 tag ,在第二个字段,然后就能处理了,只要key一样,就可以弄到一个文件中去。 awk -F '\t' '{ id = $1; tag = $2; if (0 == tag){ idPre = $1; }else (1 == tag && id == idPre){ print $3"\t"id; } }'  
有没有遇到场景,要把两个集合做一个join操作,用awk我们可以很方便的实现这个效果,设计到awk如何从两个文件中读取内容. 直接上代码: awk -F ',' 'BEGIN{ while (getline < "o2.txt" > 0){ a[$1]=1; } }{ if ($1 i ...
一个项目要求,需要做一个站内搜索,由于偏爱apache 的东西,由于喜欢他们的wiki,所以选择了solr,所以选择了tomcat 作为容器。 我们的数据一般都放在db中, 所以在初始化的时候,我们必须从数据库中倒入数据,作为原始的积累。   好的,三步走,跟我来。 1.  从apache的官网下载solr 和  tomcat 最新的包,并解压。 2.  在solr的example中自带了简化版的jetty,直接运行,不过我们要搭建自己的实例,必须得模仿example中的内容了。 3.   在example/webapps目录下面找到solr.war,copy到tomcat的we ...
Copy From: http://blog.csdn.net/xgdofull/article/details/5429858 awk提供了许多强大的字符串函数,见下表:awk内置字符串函数gsub(r,s)    在整个$0中用s替代rgsub(r,s,t)    在整个t中用s替代rindex(s,t)    返回s中字符串t的第一位置length(s)    ...
1.  在awk 中mapper的时候我们经常会合并不同的文件,取我们想要的不同的字段。   awk -F "\t" ' { filename = ENVIRON["mapreduce_map_input_file"]; if (index(filename, "xxxx") > 0) { // xxx } else { //xxxx } }   这样来取文件的名字,来判断当前处理的行属于哪个文件,以此进行相应的处理。   2.  在hadoop 中我们经常需 ...
正则表达式的优化  在Jeffrey E. F. Friedl 的<<精通正则表达式>>中提到了几种技巧。今天着重说一种比较实用的。   比较简单的:         在类似 .* 或者 [\s\S]*中匹配的时候,量词* 默认是贪婪的,启用最大匹配模式 ...
将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如,“n”匹配字符“n”。“\n”匹配一个换行符。串行“\\”匹配“\”而“\(”则匹配“(”。^  匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性,^也匹配“\n”或“\r”之后的位置。$  匹配输入字符串的结束位置。如果设置了RegExp对象的Multiline属性,$也匹配“\n”或“\r”之前的位置。*   匹配前面的子表达式零次或多次。例如,zo*能匹配“z”以及“zoo”。*等价于{0,}。+  匹配前面的子表达式一次或多次。例如,“zo+”能匹配“zo”以及“zo ...
转自:  http://www.myexception.cn/operating-system/415201.html   线上故障问题排查技能记载一 1. pgrep 查询进程的工具 pgrep 是通过程序的名字来查询进程的工具,一般是用来判断程序是否正在运行。在服务器的配置和管理中,这个工具常被应用,简单明了用法: pgrep 参数选项 程序名 eg: pgrep java #查询出JAVA进程的进程号常用参数:-l 列出程序名和进程ID-o 进程起始的ID-n 进程终止的ID2. 汇总某个进程下所有的线程数 方法一 :ls /proc/20967/task/|wc -l : ...
有时候我们希望往外的发的邮件给你退回来的邮件接下,但是不做处理。 这时候需要设置: 1.  在master.cf中设置新的传输法: ondemand     unix    -   -   n   -   -   smtp 2.  要求postfix自动延缓任何通过ondemand递送的邮件。只要将新设的 ondemand传输法列在main.cf的defer_transports参数中,就可以达到自动延缓的效果。 defer_transports = ondemand 3.  确定 transport_maps 参数指向我们的传输表: transport_maps = hash: ...
废话不说 直接上脚本 ,本人亲测好使。   #!/bin/bash #script_name:rename_ALL find ./ -type f | grep 'gif' | sed -n 's/.\/\///p'| awk ' { oldname=$1; sub("a","n&quo ...
有时候我们想让一个标准输入流变成下一个脚本的参数,就可以使用 xargs echo ok | xargs  sh  ok.sh  这个时候  ok.sh 的参数就是 ok 同理,find 也是一样 find / -type f -print | xargs grep "device"  
有很多时间需要将 resource 加入到 classpath中 如一些配置文件,如果写死配置文件的路径,不方便迁移,不够优雅,所以我们必须在代码中写相对路径,我一般通过    getClass().getResourceAsStream("/xxx.txt")   来获取这些配置文件, 通过 classloader  也是可以的。 在一般生产环境中,java程序都是通过命令行写成的, 命令行的写法尤其重要。   正确的写法是:  java -cp xx.jar:./lib/*:./conf   xx.xx.main   lib   是依赖的jar包放里 ...
Global site tag (gtag.js) - Google Analytics