Hadoop 摩尔定律

为什么要用一个分布式系统呢?它们听起来麻烦比价值大,随着计算机硬件的快速的设计脚步,似乎单台计算机的硬件会提高到处理更大的数据量,毕竟摩尔定律(以Gordon Moore命名,Intel创始人)说道:集成电路上可容纳的晶体管数目,约每隔18-24个月便会增加一倍,性能也将提升一倍,而价格下降一半。

但现在的事实是芯片的设计趋势改变了,虽然我们仍可以将单位区域的晶体管数量翻倍,但这已经不能提高单线程的计算速度了,新的CPU,如Intel Core 2和Itanium 2现在在架构上努力将一些小的CPUs或“核”嵌入到一个物理设备上,这会使多线程并行地处理与单线程相比两倍的数据,但是每个线程的速度还是和以前是一样的。

即使将成百上千的CPU核放到一台计算机上,它也无法很快地把数据传输到这些核去处理,单个磁盘读取速度大约为60-100MB/s,虽然磁盘的读取速度一直在提高,但却无法与处理器速度的提高相比,暂且乐观地假设速度为上限100MB/s,并假设有4个I/O通道,也就是有400MB/s的速度,那么一个4TB的数据集要用10,000秒去读大约4小时才能载入数据,但用100台只有两个I/O通道的机器做相同的工作,只需要3分钟。