产业
首页  >  产业  >  高端访谈

浩瀚深度刘彤解读大数据分析之道

2014-08-22  来源:中国信息产业网  作者:

主持人:刚刚说到,在大数据采集方面技术已经不是大问题,但是在对数据进行多维度叠加分析时,每叠加一个维度所带来的计算量的差别,是什么样的一个关系?数据的处理能力又会有哪些区别?

刘彤:每做一个维度的叠加必然会带来数据量的增长,这是一个很简单的逻辑问题。作为运算来说,维度的叠加会带来数据量的级数增长,但是在应用场景确定的情况下,数据又是在做收敛的,是在做层层的过滤,而不是层层的叠加,数据是在过滤的过程中做高密度叠加的。在这种情况下,并没有带来想象中的数据膨胀,这是大数据和传统应用系统的一个很大的区别。

以前的关系型数据库在进行分析时如果叠加维度,叠加到三个以上,处理能力就非常非常慢了,因为在进行数据处理的过程中,需要把每个维度同每一个数据进行关联,建立关系,这种方法是把全网的数据都进行组合、关联、叠加,数据处理的效率就会直线下降。

大数据分析的特点是,不是把全部数据都同时叠加,而是在每一个维度都展开分析,在分析的过程中进行过滤筛选。举个简单的例子,比如会场里有很多人,这么多人里按男女分类,先把男士挑出来,然后对男士的年龄段进行筛选,先把年龄段在20-40岁的选出来,再从中选出戴眼镜的,会发现选出的人越来越少,要分析的对象越来越精确,数据量变大了吗?其实没有。但是如果同时要得到这些维度在每一个可能分析方向的结果,就等于把所有运算做了一遍。这就带出了在大数据分析里一个非常核心的要素:选定目标。必须要有一个清晰的工作目标,先有目标,然后进行大数据筛选,而不是对数据进行全面的分析、全量的分析,得出所有的结论,再在结论里去找所需要的东西。

主持人:在对大数据进行分析的过程中,分析方法的差别可能会导致不同的结论,而这些结论也都是基于大数据分析的,如何才能确保制定了目标之后,得到正确的结论?

刘彤:这个问题从分析的角度来说,很难进行解答,因为做大数据的目标选择,包括分析方法的确定、分析的流程步骤制定,输出结果,怎么样去正确的解读数据结果,是需要经验的积累的。

大数据分析实际上是数学建模的过程,通过海量数据分析的过程,找到一些模型的规律,根据这些规律总结出相关的结论,而这些规律的搜集和积累过程是必须的,不能凭空拿出一些数据去做分析,马上得出目标性的结论。

在第一次进行数据分析的时候,实际上是没有任何参照的,在不知道行业运行方式、数据来源、数据使用方式的情况下去做数据分析是不科学的。数据分析,需要不断累积经验,基于数据所包含的信息量确定目标,再通过正确的分析方式,得到正确的结论。

确定目标的过程,是基于对数据的基础分析判断,其实在选定目标的时候,目标的制定者已经有了大致的分析计划表,他知道要进行几个维度的筛选叠加后能够逼近分析结论。数据分析工程师在进行数据处理的时候,是依据目标制定者的思路来进行数据的逼近,逼近过程中,核心的保障不在于分析方法,因为分析方法已经确定了,而是在于数据分析的质量:数据是不是准确,是不是全面,是不是可靠,这些数据的有效性、延续性,是不是足够满足你的分析。这个过程是慢慢扩大对数据认知的过程,认知程度越深,验证数据是不是有效可靠的过程就越顺利,逼近结果的过程也就越顺利,就会变成一个高效率的工作,并且会得出正确的结论。

大数据有一个好处是,在大数据应用的时候并不像传统数据,展现的时候必须马上给出结果,大数据的析结果是可以进行调整和修正的,会随着结果与真实情况的验证、对比来修正分析方法和模型,以便选择更有效、更可靠的模型去逼近正确的结论。

关键词:大数据 浩瀚深度