首页
首页  >  

电信运营商基于大数据的商业智能应用的思考

2013-04-17  来源:中国信息产业网  作者:

中国移动研究院支撑所所长 孙少陵

感谢主办单位、感谢张处长。

首先非常高兴有这么一个机会跟电信界的同仁分享一下大数据方面的一些观点。今天我讨论的问题主要是结合云计算和大数据,探讨一下运营商在商业智能、经营分析等等这些领域如何应用。主要探讨这么几方面:

一,电信运营商商业智能面临的挑战;

二,基于大数据的商业智能系统的初步构想;

三,中国移动“大云”在商业智能方面的一些实践。

首先我们可以看到,全球随着互联网以及物联网的高速发展,数据量增长是非常迅猛的。我们可以看到像移动互联网还有很多数码设备,以及物联网、传感器等等,这些现在都变成了新的数据来源。Jim Gray的新摩尔定律认为,现在每18个月,全球的数据量变成原来所有数据量的总合,所以基本上是指数级的往上增长。未来十年全球数据量平均增速将达到40%,到2020年将达到32 ZB。这是整个信息化发展对数据量增长的推动作用。实际上也是整个社会对于企业的监管要求的提高,也促进了数据量的增长。当然还有企业本身对于市场竞争的需求。

我们可以看到,企业越来越多的数据希望被长期保存,比如说用于用户行为分析、市场研究等等。这些数据尽管现在看来可能是没有用,但是未来可能会在我们的生产当中起到非常大的作用。此外像政府的上网日志审计等等,要求企业是要长期保存一些数据,这对运营商数据存储带来了比较大的挑战。

基于大数据的商业智能,为运营商带来一些新的机遇,我们知道在网络时代,实际上运营商是数据交换中心,运营商的网络还有业务平台支撑系统,每天会产生大量的数据,这些数据实际上蕴含着丰富的价值,这些数据通过商业智能系统进行挖掘,会给运营商的业务带来很多新的机遇,主要体现在以下四点。

第一,改善用户体验。我们提供的业务首先是要满足用户的需求、改善用户的体验,通过数据进行用户行为分析,改变产品设计,会很好地提高对用户的业务服务水平。同时我们通过用户偏好的分析,能够及时、准确地进行一些营销活动和客户关怀活动。

第二,优化网络质量。我们每天在网络上流动的大量数据,实际上通过深入地分析和挖掘,可以帮助我们很好地去定位故障,并且对我们未来整个网络的流量、流向的规划和调整,带来一些依据。

第三,助力市场决策。运营商的网络是很庞大的,既有业务系统,又有后台的一些财务系统,这些数据实际上进行综合的分析,才能让公司的领导层更容易地准确进行市场决策行为;

第四,刺激业务创新。数据现在被各个公司都作为战略资产,这些资产未来如何发挥效应,尤其是如何能直接带来现金流,这也是运营商在考虑的一些问题。

当然运营商的商业智能系统也面临着诸多的挑战:

首先,是系统分散建设难以实现资源和应用共享。因为运营商一些传统组织架构的因素,所以运营商很多系统,他从条块方面,各个专业系统,比如说BSS、OSS和内部的管理信息系统往往是分开的,此外在横向上一般来说也分多级,比如说集团有集团的一级系统,各个省以及地市有各自的系统。这种分散式的建设,一方面浪费了投资,没有办法实现计算和存储资源的共享,此外我们的应用开发以及数据分析和应用开发的一些专业人员,也没有办法实现贡献。

第二,是数据的分散存储,标准化程度比较低。由于各个系统自己定义自己的数据模型,所以系统进行整合、综合分析的时候,会遇到数据标准化的巨大挑战。

第三,以数据仓库为核心的传统架构,难以满足业务发展的要求。原来传统的数据仓库在系统的横向扩展方面存在一些技术上的问题,同时传统的数据仓库基本上是针对结构化数据进行分析的,对于一些非结构化数据,像日志信息、半结构化数据或者是一些网页等等的信息,是属于非结构化数据,他没有能力去处理。

第四,系统只针对内部提供服务,数据没有进行有效的商业利用。实际上不光是运营商,各个公司都在探索如何探索数据的商业价值。淘宝最近推出的数据魔方,某种意义上来说,也提供了一种这方面的思路。

在基于大数据的商业智能方面,我们也做了一些探索,有一些不成熟的想法,在这儿跟各位专家做一个分享。首先我们实现大数据的商业智能,是希望把原来分散的系统变成集中式的系统,这集中式一方面是从建设成本、运维成本的考虑,其实更重要的是希望通过集中化的系统来实现数据和业务应用的标准化。这样才能够准确地进行数据的分析挖掘工作。

我们可以看到,原来我们基本上都是一级的系统,下面每个省有自己的省级系统,甚至说地市还有地市的系统。未来我们会做两项工作。第一就是统一数据模型,把我们这个数据实现标准化,或者在某种程度上实现标准化。第二是在统一平台上进行数据的存储和处理。

集中化其实对于我们目前的这种BI所带来的挑战,不管是说从管理还是从技术上来说,都是非常大的。主要有以下几方面:

首先,数据规模大,我们初步估计到2015年6月,BI的数据总量会超过8P,所以存储的容量是相当大的。所带来的问题是用传统的数据仓库进行存储和处理价格会非常高昂;

第二,数据处理复杂。原来我们只处理结构化数据,未来会处理半结构化和非结构化数据。

第三,混合负载多样。对于运营商来说,我们有常规的分析和挖掘工作,也有临时性的分析挖掘工作,不同的应用在一套系统上,必须得进行有效的调度,能保证高优先级的业务确实得到及时处理,多个系统又能够共享资源。所以这里实际上涉及到混合负载调度问题。这对于目前技术的实际水平来说,也是非常大的挑战。

在这方面,我们分析了一下现在可用于经分系统的大数据技术,主要有以下几种。

首先在关系数据库系统当中,现在有传统的基于高性能硬件的关系数据库,这种一般来说是通过小机盘阵这样的高档硬件,或是用软硬件一体化的方式来实现的。第二种是基于X86通用平台的分布式数据仓库,一般来说我们叫MPP数据仓库。第三种是Hadoop的开源系统。

我们从以下这几方面分析可以发现,在复杂多表关联分析性能这方面,关系数据仓库(MPP)跟传统的数据仓库相比,它的功能和性能都比较强,Hadoop在这方面缺少高级索引,它的数据存储和查询的效率也相对低一些。

在非结构化处理方面,关系数据库没有问题,绝对能胜任,Hadoop传统是处理非结构化数据,当然它可以通过其他的系统来处理结构化数据,但是在关系模型支持这方面,要差于关系型数据库。

响应的及时性方面,关系数据库无论是高性能的还是MPP数据仓库,它们的性能都比较好,在Hadoop这方面,对于数据处理优化比较少,所以实时性一般来说比较差,传统的Hadoop主要是进行批处理业务。当然Hadoop这个生态系统当中,它引入了一些NoSql这种键值对的数据库,这种数据库对于单表查询的性能支持得非常好。

在数据规模、扩展性方面,传统的高性能硬件扩展性最多达到PB级,扩展性总体上差一些,MPP数据仓库好一些,Hadoop在这方面是最强的。

可靠性方面,原来传统的数据仓库硬件可靠性比较高,总体上可靠性比较好。MPP是通过硬件和软件联合实现的一些可靠性,比传统的会稍微差一些。Hadoop是完全依靠软件来实现不可靠硬件,组成一个可靠性系统。它的可靠性需要未来长期验证。

在采购成本方面,传统的数据仓库最贵,MPP数据仓库便宜一些,Hadoop最便宜。

在运维方面,传统数据仓库产品化程度比较高,而且基于SQL开发,开发者队伍比较庞大,运营成本会比较便宜。MPP数据仓库的产品化水平还没有达到非常成熟的状态,它的运维成本会比传统数据仓库略高,Hadoop产品化程度总体上还是低一些,外围的管理工具也比较缺乏,而且它经常需要用MR等一些并行计算的框架进行开发,对开发者要求也是高一些。

从外围工具支持,比如说像可视化工具等等,关系型数据库总体来说不错,Hadoop比较少一些。

我们可以看到三种技术各有优缺点,在我们集中化BI构建的思路上,基本上是考虑采用混搭的方式,也就是说高性能数据仓库跟低性能的MPP数据仓库以及Hadoop形成混搭的系统,通过这种方式一方面解决了效率和成本平衡的问题,同时也可以解决刚才说的混合负载的调度问题。

我们可以看到,我们把一些高可靠、实时性要求强的业务,加载在高性能的数据仓库上,把一些自助型的Ad-hoc应用,以及像数据集式这样的应用,放在MPP数据仓库上。对有一些结构化的进线或者说离线的数据,它的存储和查询,以及非结构化数据的处理,我们可以放在Hadoop集群上。

以下有一些初步的构想,在技术实现方面。首先是数据采集和预处理是可以基于Hadoop的分布式ETL技术,引入流计算的方式让数据一边加载一边处理,提高它的实时性能。第二,数据的存储和处理采用Hadoop和数据仓库混搭的方式,我们在上面会提供透明访问的机制,这个机制会屏蔽下面多个大数据系统之间的差异,通过这种方式简化应用的开发。第三,未来可能会采用PaaS的方式,他集中化经分的能力开放给省公司或者地市公司。通过这种方式我们要达到什么目的呢?平台和数据集中部署、集中存放,但实际上应用开发可以分布式执行,也就是说各个地方可以根据自己的需求、自己的特点应用,把它上载到统一的平台上,运行以后得到分析的结果。

以上是之前对于大数据的一些思考和探索。我们结合中国移动“大云”项目,在大数据用于商业智能系统方面,也做了很多探索。“大云”实际上是中国移动云计算整体的研发项目,其中红圈这方面,也就是数据管理分析类,这主要是定位大数据方面的工作,包括像中国移动自己定制的一个Hadoop,还有一些图计算的并行计算框架,还有像数据挖掘、ETL,包括一些搜索引擎相关的工作。

总体来说,“大云”所做的工作对应我们商业智能系统,主要是对应在数据层相关的一些工作,在数据采集方面,目前我们BC-ETL可以做基于Hadoop的并行数据抽取转换和装载,后续我们会引入一些流计算的技术,让效率更高。在数据存储了处理的子层,我们现在提供了BC-HugeTable,是结构化的数据存储和处理系统。BC-Hadoop是我们做过优化和改进的非结构化处理系统。BI-PaaS原形系统,基本上可以实现应用开发、托管和分享。BC-PDM是基于中国移动自己在数据挖掘算法和操作方面的需求,开发的一个并行数据挖掘系统。BC-SE是我们结合盘古搜索开发的实践,在网页采集、索引、自然语言处理方面做了一些积累。

这里介绍几个案例,是关于“大云”在商业智能相关领域做的一些工作。首先我们结合某一个互联网业务的应用,用HugeTable的Loader进行数据的快速装载,通过BC-Hadoop来进行海量数据的存放,在HugeTable和PDM上,我们分别进行结构化数据和非结构化数据的处理,这个性能应该说取得了比较好的效果。

同时我们结合公司信令监测相关的应用,也是做了一些尝试。这里实际上我们用大云的HugeTable系统,实现了数据的快速装载以及复杂的应用的快速查询。经过一些实践,我们也确实得到了不错的结果,有60个统计指标在信令监测系统最复杂的查询应用当中,可以实现一分钟返回结果,达到了应用的要求。

此外“大云”还结合互联网内容分析系统,进行了一些开发工作。在这里我们实际上通过用户的上网日志来采集到用户访问过的网页数据,这里所用的技术主要是爬虫、网页分析、自然语言解析等等,可以实现每天500万的网页。在网页采集以后,我们在BC- HugeTable系统上实现了海量日志的存储和各种汇总统计分析的工作,同时用我们的PDM支持了一些结构化和非结构化的数据挖掘工作。

以上就是我们在大数据、商业智能方面的一些探索,今天在这里跟大家分享一下,希望大家给我们提出宝贵意见。我们认为大数据是现代信息化技术和互联网海量信息的一次化学反应,未来不仅在运营商自己的应用领域,它对整个社会的技术、商业模式甚至法律法规方面,都会有很深刻的影响。我们也希望在这方面跟产业的各界进行合作,抓住机遇,为社会创造更多价值。

谢谢大家!

关键词:Jim Gray 大数据 电信界 大云 云计算