大数据
首页  >  大数据  >  要闻

没有银弹:数据湖的现实与梦想

2019-02-28  来源:人民邮电报社  作者:文立木

数据湖正在成为一种越来越流行的大数据解决方案,同时数据湖这个词也被大数据供应商赋予了多种不同的含义,如果有什么工作是传统数据仓库做不了的,那就把它塞进数据湖,以至于今天的数据湖变成了一个定义模糊的概念。那么,数据湖是不是就是传说中的“银弹”,可以解决数据仓库不能解决的所有问题呢?

数据湖是什么

维基百科对数据湖的定义显示,数据湖是一种在系统或存储库中以自然格式存储数据的方法,它有助于以各种模式和结构形式配置数据,通常是对象块或文件。数据湖的主要思想是对企业中的所有数据进行统一存储,从原始数据(源系统数据的精确副本)转换为用于报告、可视化、分析和机器学习等各种任务的目标数据。数据湖中的数据包括结构化数据(关系数据库数据)、半结构化数据(CSV、XML、JSON等)、非结构化数据(电子邮件、文档、PDF等)和二进制数据(图像、音频、视频等),从而形成一个容纳所有形式数据的集中式数据存储。

可见,企业使用数据湖架构,核心出发点就是把不同结构的数据统一存储,使不同数据有一致的存储方式,在使用时方便连接,真正解决数据集成问题。因此,数据湖架构最主要的特点,一是支持异构数据聚合;二是无须预定义数据模型即可进行数据分析。

数据湖从本质上看,是一种企业数据架构方法,物理实现上则是一个数据存储平台,用来集中化存储企业内的海量、多来源、多种类数据,并支持对数据进行快速加工和分析。从实现方式来看,目前Hadoop是最常用的部署数据湖的技术,但并不意味着数据湖就是指Hadoop集群。为了应对不同业务需求,“MPP数据库 Hadoop集群 传统数据仓库”的混搭架构的数据湖也越来越多地出现在企业信息化建设规划中。

数据湖与数据仓库的区别

数据湖的概念最早是基于数据仓库提出的,数据仓库作为一种数据存储架构,旨在保存从多数据源提取的数据,这些数据包括业务操作型数据、业务分析型数据,以及企业内的运营管理型数据。数据仓库负责将各类数据经过抽取、清洗、转换、聚合、存储等加工处理,进行企业级数据统一管理和分析。

数据湖作为另一种数据存储架构,它以数据原生格式保存大量原始数据或明细数据,以供按需访问,数据湖可以用来描述任何具有不明确的模式和数据需求的大型数据存储。可见,数据仓库中的数据是根据特定主题分类的,它可以指导数据管理人员有针对性地开展数据分析工作。但对于数据湖来说,它管理的所有数据只是作为未来数据分析的基础素材。

数据湖与数据仓库这两个概念很容易混淆,它们的区别主要有三个方面。

关键词:数据湖 异构数据源 多数据源 半结构化数据 数据聚合