技术
首页  >  技术  >  产品方案

应需而变, 融易致远
华为N8000-Hadoop大数据解决方案

2013-03-07  来源:中国信息产业网  作者:

人人都在谈论大数据,但是究竟什么是大数据呢?大数据主要来源于互联网领域和一些垂直行业,数据量达到PB级,甚至10PB以上;它需要更高性能、更大吞吐量、更大扩展能力.据统计,全球80%的数据在近两年生成,平均年增长率超过50%。数据正从四面八方、各个领域中产生,变得更繁杂、更庞大、更加多样性,如果将这些海量数据简单堆加、存储归档,是不能为企业带来价值的,反而会增加企业投资成本。只有完成对大数据的分析、价值数据提取,才能发挥大数据最大的威力,进一步提高企业决策水平、改善业务模式,从而成为企业成功的关键。

Hadoop是一个分布式计算框架,来源于Apache软件基金会的开源项目,具有良好的并行处理能力、可扩展性和可伸缩性的特点,更适合处理半结构化、非结构化类数据,是重要的大数据计算和分析平台。Hadoop因此获得大多数数据分析厂商的关注和支持,成为当下大数据领域的热点技术。根据上述大数据的四个特点,系统不仅需要具备超高的性能和超大的存储空间,还必须将数据存储与数据分析相结合,由此华为N8000-Hadoop大数据解决方案应运而生。该方案借助华为N8000系统先进的集群架构和企业级存储功能,集成Hadoop计算框架,提供从密集型数值计算和数据存储中实时获取的分析处理结果,帮助客户提高决策和运营效率,简化管理并降低组网成本。华为N8000-Hadoop大数据解决方案有以下特性和优势:

1. 数据互通,承载多业务

首先,我们先分析一下当前集群NAS应用Hadoop的典型数据处理流程。数据通过集群NAS的NFS/CIFS等NAS协议完成数据存取操作,而Hadoop是架构在HDFS协议之上,这意味着集群NAS的数据不能被Hadoop计算框架直接使用,必须通过异构数据源之间进行数据交换的工具,将异构数据源的数据抽取到中间层进行转换,最后加载到数据仓库中,成为Hadoop计算框架能够分析处理的数据。而华为N8000-Hadoop方案提出一种创新的思路,消除了这个桎梏,实现在不同的数据处理系统之间进行数据交换,在同一个存储空间中,数据可以自由流通,所见即所得,并且不需要改变传统NAS用户使用习惯和组网方式,无缝对接Hadoop计算框架,实现数值计算、数据存储以及即时的数据分析和事务处理等多业务的承载。

2. 提高存储利用率,降低TCO

使用开源Hadoop的默认配置,一种典型的牺牲存储空间换取数据可靠性和读写效率的方式,其最大存储空间利用率是33%。而华为N8000-Hadoop大数据解决方案充分利用了N8000产品企业级存储功能特性的优势,通过选择各种RAID级别技术来实现不同级别的冗余、错误恢复和数据保护功能,存储空间利用率可达80%,从而降低系统总体拥有成本TCO。

关键词:华为 异构数据源 集群架构 HDFS Hadoop