Hadoop 适用问题范围

Hadoop是一个大规模分布式批处理架构,虽然它在单台计算机上也能使用,但它的真正能力是在成百上千计算机上运行时才显现出来,Hadoop可以高效地将大量工作高效地分布到一组计算机上。

它能处理多大量的工作?

Hadoop面对的处理工作比许多现在系统处理要高几个数量级,几百G的数据,只不过在Hadoop眼里不过是小数据量。

实际上Hadoop是设计来对付“We级的”的数据,“Web级”数据大小范围在几百G到T级,甚至P级。

在这种规模下,输入数据很可能甚至不能存入单个计算机的磁盘中,更不用说内在了,所以Hadoop中包括一个分布式文件系统,它将输入文件分成块,将这些块传输到你的集群中的计算机上保存,这样,原问题可以使用集群中所有计算机并行处理,那么得到计算结果的效率也就最高。