近距离观察

honeymoose · September 12, 2012, 12:03am

细节化的Hadoop MapReduce数据流

展示了流线水中的更多机制。虽然只有2个节点，但相同的流水线可以复制到跨越大量节点的系统上。

下去的几个段落会详细讲述MapReduce程序的各个阶段。

输入文件：文件是MapReduce任务的数据的初始存储地。正常情况下，输入文件一般是存在HDFS里。

这些文件的格式可以是任意的；我们可以使用基于行的日志文件，也可以使用二进制格式，多行输入记录或其它一些格式。这些文件会很大—数十G或更大。

输入格式：InputFormat类定义了如何分割和读取输入文件，它提供有下面的几个功能：

选择作为输入的文件或对象；

定义把文件划分到任务的InputSplits；

为RecordReader读取文件提供了一个工厂方法；

Hadoop自带了好几个输入格式。其中有一个抽象类叫FileInputFormat，所有操作文件的InputFormat类都是从它那里继承功能和属性。

当开启Hadoop作业时，FileInputFormat会得到一个路径参数，这个路径内包含了所需要处理的文件，FileInputFormat会读取这个文件夹内的所有文件（译注：默认不包括子文件夹内的），然后它会把这些文件拆分成一个或多个的InputSplit。

你可以通过JobConf对象的setInputFormat()方法来设定应用到你的作业输入文件上的输入格式。

默认的输入格式是TextInputFormat，它把输入文件每一行作为单独的一个记录，但不做解析处理。这对那些没有被格式化的数据或是基于行的记录来说是很有用的，比如日志文件。更有趣的一个输入格式是KeyValueInputFormat，这个格式也是把输入文件每一行作为单独的一个记录。

然而不同的是TextInputFormat把整个文件行当做值数据，KeyValueInputFormat则是通过搜寻tab字符来把行拆分为键值对。

这在把一个MapReduce的作业输出作为下一个作业的输入时显得特别有用，因为默认输出格式（下面有更详细的描述）正是按KeyValueInputFormat格式输出数据。

最后来讲讲SequenceFileInputFormat，它会读取特殊的特定于Hadoop的二进制文件，这些文件包含了很多能让Hadoop的mapper快速读取数据的特性。

Sequence文件是块压缩的并提供了对几种数据类型（不仅仅是文本类型）直接的序列化与反序列化操作。

Squence文件可以作为MapReduce任务的输出数据，并且用它做一个MapReduce作业到另一个作业的中间数据是很高效的。

Topic	Replies	Views
MapReduce数据流 DevOps	90	September 11, 2012
集群上的并行计算 DevOps	119	January 30, 2012
MapReduce：隔离的进程 DevOps	93	September 11, 2012
Hadoop 数据分布 DevOps	88	September 11, 2012
MapReduce 函数式编程概念 DevOps	101	September 11, 2012