Nutch对lucene的改进

honeymoose · May 26, 2011, 6:48pm

Nutch据说还是lucene的作者写的，不过，这次这个高手打算直接和商业搜索引擎进行抗衡，他引入了分布式的构架。

Nutch一开始就是分布式的，它本来就是定位在百以上量级的集群系统（或者网格）上的。对于搜索引擎来说，除了抓取（或者还包含一些前期的数据处理）外，其余的工作都是信息保存、索引构建和索引查找。

Nutch使用的分布式构架，它利用了多台机器的性能来同时构建索引（这一点的可行性在讲MapReduce的google论文里面已经做了详细的描述），这显然能够提高做索引的速度。在索引查找上面，因为索引查找显然不同于做索引，它要求极高的速度和不高的精度。

简单的基于 MapReduce的方法的最大缺点就是速度慢（因为它简单嘛），所以，这位高手强烈建议不要使用分布式的查找方法，因为速度比单机查找还要慢很多（考虑一下，对于google来说，它的数据量据说达到上百个T，即10万G，没有机器可以挂上这么大的硬盘吧？所以，他们肯定是分布式查询的）。

可以肯定的是，Nutch在搜索方面对lucene的改进就是分布式的做索引。

当然了，Nutch比lucene好的地方在于它有了抓取程序（虽然十分的原始）

Topic	Replies	Views
Nutch 对比 lucene 查询检索	117	January 30, 2012
研究 nutch 的原因查询检索	100	January 30, 2012
Lucene 没有对集群的内置支持查询检索	124	May 26, 2011
基于Nutch的搜索引擎技术查询检索	95	January 30, 2012
Lucene 介绍查询检索	173	February 5, 2012