网络快报

Hadoop:为构建海量数据架构而生

                                                                                   2012-09-1813:54                                    中国信息产业网官方微博

 

    Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在价格低廉的硬件上。它提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序。

    Hadoop分布式文件系统 (HDFS) 是运行在通用硬件上的分布式文件系统。HDFS 提供了一个高度容错性和高吞吐量的海量数据存储解决方案。HDFS 已经在各种大型在线服务和大型存储系统中得到广泛应用,成为各大网站等在线服务公司的海量存储的事实标准。多年来,为网站客户提供了可靠高效的服务。

    随着信息系统的快速发展,海量的信息需要可靠存储的同时,还能被大量的使用者快速地访问。传统的存储方案已经从构架上越来越难以适应近几年来的信息系统业务的飞速发展,成为了业务发展的瓶颈和障碍。

    HDFS 通过一个高效的分布式算法,将数据的访问和存储分布在大量服务器中,在可靠地多备份存储的同时还能将访问分布在集群中的各个服务器上,是传统存储构架的一个颠覆性的发展。HDFS 可以提供以下特性。

    高吞吐量访问

    HDFS 的每个数据块分布在不同机架的一组服务器上,在用户访问时,HDFS 将会计算使用网络最近的和访问量最小的服务器给用户提供访问。由于数据块的每个复制拷贝都能提供给用户访问,而不是从单数据源读取,HDFS 对于单数据块的访问将是传统存储方案的数倍。对于一个较大的文件,HDFS 将文件的不同部分存放于不同服务器上。在访问大型文件时,系统可以并行从服务器阵列中的多个服务器并行读入,增加了大文件读入的访问带宽。通过以上实现,HDFS 通过分布式计算的算法,将数据访问均摊到服务器阵列中的每个服务器的多个数据拷贝上,单个硬盘或服务器的吞吐量限制都可以数倍甚至数百倍的突破,提供了极高的数据吞吐量。

    无缝容量扩充

    HDFS 将文件的数据块分配信息存放在NameNode 服务器上,文件数据块的信息分布存放在 DataNode 服务器上。当整个系统容量需要扩充时,只需要增加DataNode 的数量,系统会自动地实时将新的服务器匹配进整体阵列之中。之后,文件的分布算法会将数据块搬迁到新的DataNode 之中,不需任何系统宕机维护或人工干预。通过以上实现,HDFS 可以做到在不停止服务的情况下实时地加入新的服务器作为分布式文件系统的容量升级,不需要人工干预文件的重新分布。

    高度容错

    HDFS 文件系统假设系统故障(服务器、网络、存储故障等)是常态,而不是异常。因此,通过多方面保证数据的可靠性。数据在写入时被复制多份,并且可以通过用户自定义的复制策略分布到物理位置不同的服务器上;数据在读写时将自动进行数据的校验,一旦发现数据校验错误将重新进行复制;HDFS 系统在后台自动连续地检测数据的一致性,并维持数据的副本数量在指定的复制水平上。

    总而言之,Hadoop 是最受欢迎的在互联网上对搜索关键字进行内容分类的工具,它也可以解决许多要求极大伸缩性的问题。例如,如果您要 grep 一个 10TB 的巨型文件,会出现什么情况?在传统的系统上,这将需要很长的时间。但是 Hadoop 在设计时就考虑到这些问题,采用并行执行机制,因此能大大提高效率。Hadoop 是一个能够对大量数据进行分布式处理的软件框架,而且是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。

(来源:人民邮电报    作者:)

相关文章

更多>> 论坛精华                                                                                            通信公社官方微博

更多>> 精彩博文

信息化趋势

产业圈动态

运营业要闻