- 浏览: 106292 次
- 性别:
- 来自: 北京
最新评论
-
chenbaiyang12csdn:
你好,运行LDA之后,使用工具打印出来结果这一部分能否给予一个 ...
mahout中LDA简介以及示例 -
Open-Uheart:
有一个老项目,应用的是apache-solr-1.4.1 出现 ...
solr admin UI
文章列表
1. 将队列里的东西立刻发出去(一般不用,让postfix自己决定)
postqueue -f
2. 打印队列里的邮件(常用)
postqueue -p
3. 删除队列中的内容(常用)
postsuper -d ALL
更加详细的解释
http://blog.163.com/qiantu1986@126/blog/static/35922669201141815426794/
安装版本:
yum install postfix
注意:
postfix reload 这个命令在一些版本里面无法正常刷新配置,需要 postfix stop,然后postfix start 一下。
要远程访问到,需要在 /etc/postfix 下面修改main.cf
把前面的 # 去掉 xx.xx.xx.xx 是你远程机器的地址
mynetworks = 168.100.189.0/28, 127.0.0.0/8, xx.xx.xx.xx
inet_interfaces = all
在远程机器上 telnet xx.xx. ...
1。 测试用例
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-surefire-plugin</artifactId>
<version>2.5</version>
好,咱们继续。
parse
$bin/nutch parse $commonOptions $skipRecordsOptions $CRAWL_PATH/segments/$SEGMENT
CLASS=org.apache.nutch.parse.ParseSegment
这就是传说中的解析网页内容的操作。
map中:
首先只解析成功的内容,看上一步返回的状态码,如果不是成功的情况直接 return . 下一步又是通过插件来解析文本的,看来得重开一篇专门讲插件的, 干活都在插件中。
updatedb
$bin/nutch updatedb $commonOptions ...
crawl 脚本用来实现 nutch 中对于网页的抓取 分析 索引工作。
把工程下下来之后 ,进入到 bin 目录:
两个脚本文件 crawl nutch
crawl 是对nutch 的进一步封装
首先我们看一下他的注释:
# UNLIKE THE NUTCH ALL-IN-ONE-CRAWL COMMAND THIS ...
Netflix 是一家在线租片儿的公司, 并且更具用户过去租片的行为来进行推荐, 他悬赏100万美元去奖励第一个把租片成功率提高10%的团队,以及5 万美元给这个团队的leader,通过提供用户以前租片的纪录给团队们进行推荐,现在做的最牛屄的团队是提高了 7%。
google 是意见搜索公司,创立当时有很多其他的公司, 但是google 通过其他网页对他的外链来进行排序,搜索质量远远好于其他的竞争对手, 占到了当时 85%的市场份额。他们的创始人也跻身世界上最有钱的10个人。
这两家公司的共同点是什么呢? 他们回通过收集用户的数据,运用强大的算法得出新的结论 ...
n分钟前 小时 秒 类推:date -d "-10 min" "+%Y-%m-%d %H:%M:%S"
现在的时候用转换成秒: date +%s
知道秒数 看日期: date -d "$((1387468804-`date '+%s'`)) sec" "+%Y-%m-%d %H:%M:%S"
或者快捷方式 date -d @xxxxx
日期转秒数 date -d "2015-03-16 04:00:00" +%s
find . \! -type d -name '*.*' -exec cat {} \; > fuck.log
在介绍推荐系统指标之前,首先看一下计算和获得这些指标的主要实验方法。在推荐系统中,主要有三种评测推荐效果的实验方法,即离线实验(offline experiment) 用户调查(user study)和在线实验 (online experiment) .
1. 离线实验
(1) 通过日日志收集用户行为数据,并按照一定的格式生成一个标注的数据集。
(2)按照一定的规则将数据集划分为训练集和测试集。
(3) 在训练集上训练用户兴趣模型, 在测试集上进行测试。
(4) 通过事先定义的离线评测指标评测算法效果。
2. 用户调查
用户调查需要一批真实的用户, 让他们在 ...
什么是推荐系统以及推荐系统解决的问题:
解决信息过载的问题,当用户面对信息过载的时候, 需要人工或者工具帮助你做筛选,给出一些建议供用户选择。用户需要一个自动化的工具,分析历史兴趣。这个工具就是个性化 ...
[ZT]Maven常用命令 收藏
Maven常用命令 关键字: maven常用命令
1、常用命令mvn compile 编译主程序源代码,不会编译test目录的源代码。第一次运行时,会下载相关的依赖包,可能会比较费时。
mvn test-compile 编译测试代码,compile之后会生成target文件夹,主程序编译在classes下面,测试程序放在test-classes下。
mvn test运行应用程序中的单元测试
mvn site生成项目相关信息的网站
mvn clean清除目标目录中的生成结果
mvn package依据项目生成 jar 文件,打包之前会进行编译,测 ...
kafka 之 producer篇
- 博客分类:
- 开源框架
前面三章从 kafka.kafka 启动类 抽丝剥茧,看了 kafka broker 的架构。
下面咱们从 producer 的角度,producer的逻辑相对简单,再看看 client 端,和 broker 都干了什么。
首先,咱们看看官方给出的 examples, 在包中的examples\src 下有给出的示例,java版的,搞到eclipse中。
producer = new kafka.javaapi.producer.Producer<Integer, String>(new ProducerConfig(props));
用了kafka ...
好了 , 接着上一章 , 我们回到kafka的 kafkaserver 这个重量级的类。
val handlers = new KafkaRequestHandlers(logManager)
socketServer = new SocketServer(config.port,
config.numThreads,
config.monitoringPeriodSecs,
...
好的, 上篇把 kafka.kafka 干的事情解析了一遍, 什么都看不出来, 是的, 什么都看不出来他干了什么。那么这章来电干货。
在kafka中, 主要资源的协调,开始运行时在
class KafkaServer(val config: KafkaConfig) extends Logging
这个类中进行的。
在初始化这个类的时候,他做了一件事情。
val scheduler = new KafkaScheduler(1, "kafka-logcleaner-", false)
咱们来看看 KafkaScheduler的实现
...
最近闲来无聊,研究了一下 消息队列 kafka,拜读了其源代码。
阅读源代码的准备:
1. 由于kafka 使用scala 这种语言编写,所以想要看的更人性化一些,请安装 scala ide 自己谷歌一下, 建议到官网上下, 这是一个scala 的 eclipse 插件,一定注意下载跟自己eclipse 版本配套的插件, 如果你确定能用记事本看, 可以无视这一点。
2. 下载kafka , 并到目录下,执行 ./sbt 下载依赖,在 core 目录下,有kafka 的源代码, 看目录结构很显然是个maven 工程,不过没找到pom.xml , 不过这个问题不是问题。找到源代码之 ...