" />
首页
首页  >  

大数据的思考与实践

2013-04-17  来源:  作者:

中国联通信息化事业部副总经理 耿向东

各位专家、各位业内外的朋友大家上午好!

非常高兴能够参加今天的论坛。应该讲我参加这个论坛也有四届了,大概在其中三届发表过演讲,第一次讲的是基础设施的云化,第二次讲的是应用的云化,今天我想跟大家探讨的是大数据方面的思考和实践。当然我们这个论坛也是一个非常开放的交流空间,所以我在这里给大家讲的也是一个比较开放的话题。

我想讲这个大数据,还是首先要从运营商当前面临的挑战来看,大家也都知道,实际上现在有很多的趋势,应该看得很清楚了。比如说我们以前讲叫移动替代固网,这已经成为事实了。现在我们说流量替代语音,也正在成为现实,事实上对于电信运营商来讲,语音想守是很难守住的,未来一定是流量经营为主的时代。

这里面有一些数字可以跟大家分享一下,这些数字都是公开的数据,大家也可以从工信部的网站上拿得到。从三大运营商来看,截止到今年的1月份,一共是11.2亿的移动用户,我们不说固网、不说宽带。移动用户有11.2亿,1月份的时候三大运营商加在一起是8600万的新发展,但是有将近9400万的流失,什么意思?负增长,其实用户在大进大出,这个现象是非常明显的。2月份大概有9100万的新发展用户,但流失的用户是1.04亿,工信部大家都可以看得到这个数据。

所以说运营商当前来讲竞争已经非常激烈了,不再是一个增量的市场,而是一个典型意义上的存量市场。也就是说传统的靠人口红利的发展模式已经走到了尽头。

这是一个数字,另外大家也可以看到,OTT通过各种创新的方式来分流、替代电信行业。据工信部的统计,今年1到2月份,全国短信的业务量达到了1576亿条,同比增长只有0.7%,明显低于2011年同期的5.7%。当然在今年的春节期间,我们感觉还是稍微可以的,曾经有人预测说今年是微信的时代,微信的量可能会大幅替代短信,但从实际情况来看还好,短信的增长大概还在10%以上,相比去年。但是毫无疑问微信的冲击已经非常地明显了。

这里面大家可以看到点对点的短信下滑的是10.6%,什么意思呢?就是用户和用户之间大家相互发的短信下降得非常厉害。

再从另外一个方面来看,比如说移动前两天也刚刚发布了财报,下面也有移动的同事,移动的收入是5600亿,利润是1293亿,利润首次出现同比下降,但它的总量也还是很大。对电信来讲是2800亿,利润是149亿,联通营业收入人民币2,489.3亿元,净利润达到人民币71.0亿元,这是运营商当前的总体经营状态。

另外大家也知道,我想我们可能在座的大部分都是微信的用户,微信发展1亿用户的时候用了6个月时间,从1亿到3亿大概只用了3个月的时间,非常快。但是对于我们运营商来讲,发展用户就很难了,我前面跟大家讲了这么几个数字。所以大家可以看到,运营商是面临了一些新的挑战的。

未来怎么办,语音在下降、现金流的业务在萎缩,未来应该是流量经营的时代。过去几年也一直在讲运营商要做智能管道,流量可感知、内容可识别,要做智能管道。运营商做智能管道可能很多时候也是一厢情愿了,前不久有一个电信的基层同志发表了一篇文章,大家可能会看到,说电信十年转型次次失败,有这么一篇文章大家可以看一下,说明运营商在智能管道的转型过程当中也是非常困难的。

我们曾经在去年的9月份推过沃派的定向流量,大家可能知道,在去年高校市场。但是我们很快发现对网络的压力、对OCS系统的压力极其巨大,你的流量分得越细,那么对系统的开销压力就越大。在部分省就出现了这种类似于ddos攻击的雪崩效应,当大到一定的程度,大家已经无法继续了,无法继续这个时候你就必须要采取措施,必须要停,不停它会整网都瘫痪,但是你一停就势必会引发客户的一些投诉,因为一个用户的访问会产生几个、几十个不同的进程,会占用你的资源,所以对OCS来讲都需要进行巨大的扩容代价才能满足这种场景。大家知道这不是话音、这是流量,流量是互联网特征,它的爆发增长很多的时候是很难预计的。所以这是我们面临的一些问题,运营商想转型,但是很难。当然我们也会面临一些体制和机制上的问题。

运营商最核心的优势是什么?一个是网络,三大运营商每年都会花2500亿以上做网络,运营商搭建的是高速公路,高速公路上承载的是用户,用户只能接触这三个运营商,即便以后是虚拟运营商,也是承载在运营商的网络上的。

用户带来的是什么?当然对我们来讲带来的是收入,同时在网络上体现的是业务量、体现的是数据。所以我认为运营商未来最核心的是网络、用户和数据。

通过运营商我们可以掌握所有用户的健全信息,准确识别每一个客户的身份,可以通过信令来了解用户的活动范围和准确的定位,通过通话行为可以了解用户的交际圈,通过用户上网的行为了解用户的兴趣和偏好。今年3.15联通面向iphone用户推出了流量自主查询的服务,因为过去流量计费的争议很大,我们把所有用户上网的记录做了留存,面向每个用户对它进行了分析、展示、在你的手机营业厅上面就可以直接看到自己访问了什么流量,分别由哪些构成?当你认为运营商计费是不是有问题的时候,你就可以回溯一下,看一看当时你有没有上过什么网,你大概是怎么样,增加消费的透明度。

所以我说有了这些之后,我们可以做很多的事情,与其拒绝做管道,不如乐于做管道,可能运营商未来不想做管道,但是这不是你决定的。在这上面未来我们的转变应该是以大数据以及大数据价值的深度挖掘,乃至于创造一些新的商业模式,来实现运营商到服务商的这么一个转型,这可能会是另外的一条道路。

所以我们认为,为适应这样的一些变化,当前在内外部形势的一些变化,运营商必须要转变思路、加快企业的战略转型,真正地从提升客户的感知出发,重新构建企业的商业模式、营销模式和支撑模式,能够快速、合理地配置一些资源,能够做到精细化的营销和精准化的管理,推进一体化的运营和商业模式的创新。所以我们总体未来的方向、未来的思路是这样子的。

在这里面我特别强调数据的重要性,我们认为数据是企业的核心资产之一,过去大家并不把它当作一回事情,运营商有大量的流量,但是都是白白浪费的,也就是说我们没有精耕细作,没有通过这些数据的分析去感知客户、透视企业,这些数据都浪费了、白白流失了。我们过去从来不把数据当做资产,但是这非常重要。我们经常说我们开了一次正确的会、做了一次正确的部署,但是基于错误的数据前提,请问这个结果会怎样?所以任何未来的企业决策、管理、市场营销,都应该建立在数据的基础之上。我想大数据给我们提供了用数据去衡量企业一切的可能,过去可能没这个条件,现在都可以通过数据进行量化了。

所以我们认为运营商必须充分挖掘数据的价值,发挥数据资产的潜力,实现企业的大服务和大营销,并且进一步会转向全业务的电子商务。在这个过程当中数据就变得非常重要了,我们总结了几个词儿叫“真、大、快、活、全”。首先你这个数据必须是真实准确的,真实准确的数据又必须建立在完善的数据治理体系和安全的保障之上。“大”就是说未来一定是一个大的数据,未来可能是有PB级的数据,运营商现在每天的数据如果是纯粹的计费数据,可能每天增量也就是几T,顶多几十T。流量的日志数据每天联通大概在30T,如果是流量的具体内容可能每天都是几百T甚至PB的级别。未来运营商关注的数据不仅仅是内部的这些数据,会进一步地向外进行扩张,甚至把互联网的数据涵盖在内。

对于这些数据它一定是海量的,也是批量的,许多的数据也需要实时处理。“快”就是说因为数据是有实效性的,很多数据过了今天就没有什么意义了,所以必须要快,数据的采集要快、处理要快、数据对外提供的服务响应速度也要快。当然数据生命周期的管理也要快。

“活”就是要把数据用活,要通过各种各样的平台、各种各样的工具把数据的价值挖掘出来。所谓的“全”就更容易理解了,就是全面的数据,不仅仅是内部的,也包括外部的,不仅仅是结构化的,也包括非结构化的、半结构化的。

讲完了这些后面是一个总体的架构,这里仅供大家参考。面对这些大数据的特点和技术的挑战,我们制订了整体的规划,我们把它简要地总结叫“三大体系、四大平台”。所谓的三大体系是我们云化应用的体系,也就是说未来我们所有的应用全部是基于云化的,全部是构建在大数据基础之上的,是厂家无关化的,是百花齐放的,任何一个厂家都可以在我的平台上开发他的应用、对外提供他的服务。

统一的数据服务支撑体系是第二个,因为大家也知道联通和电信、移动可能不一样,我们要做的是一级平台,实现七级的支撑。所以这个系统它的复杂性就变得非常高了。你要兼顾到各种不同的情况,所以会有一套完整的、统一的数据服务体系。

第三个是运营管理体系,我刚才讲七级服务,涉及到不同层级的个性化数据的加载,共性数据的使用,涉及到数据存储的管理,涉及到计算能力的调配等一系列的工作,所以有一套完整的运营体系。

四大平台是从技术层面来讲的,一个是数据采集平台,我们强调的是数据范围、数据质量、数据效率,也就是你采集和交换的范围、质量、效率。这里要争取实现的是一点获取统一交换、高速共享,这是采集和交换平台。那么数据服务支撑平台指的是中间绿色的这一块儿,数据服务支撑平台,它包括我们的传统上大家可以理解的ODS、DW、DM,乃至于在上面构建的立方体等等,但是大数据还不仅仅如此,它还会涉及到一些低价值密度的数据,还会涉及到一些实时的流数据。

什么叫低价值?大家都知道大数据有四个V,其中有一个词叫Value,但这个Value不是价值的意思,它的内涵是低价值的价值,互联网很多的数据是低价值的,相对于它的体积来讲。对于这些低价值的数据你就要对它进行处理、聚合,把它变成高价值的数据,然后才能进到你的结构化数据里面去,因为大量的互联网数据对我来讲是没有意义的,但是你访问了什么、访问了多少次对我是有意义的。

所以这个数据平台它是一个混搭的架构,是涉及到各种类型的数据架构,数据服务层一方面要整合、清洗、转换、加载这些数据,同时对外要实现数据的透明服务,什么叫透明的服务?就是说要屏蔽掉异构仓库或者说数据库之间的复杂性,对应用的交付是透明的,所以这是数据服务的支撑平台。

在应用开发平台,开放式的开发平台,大数据和传统的生产系统又不太一样,它是应用和数据要紧密结合的,所以在这个里面不仅仅涉及到面向SOA的架构的平台、一些管理,也会涉及到和数据分析相关的工具、一些深度挖掘的工作等等一系列的工作,这是开放式的平台。在这个平台之上去衍生应用,这个应用就会有无限的畅想,你就会做各种各样的,面向企业内部的、面向外部的统一的或者说自助的、灵活的等等一系列的应用,这是我们总体的架构。

在这里面因为讲到大数据,就重点地讲一讲技术的选择,基于我刚才所讲的数据的范围得到了极大的扩展,所以运营商的数据类型也是非常复杂的。我们认为传统的小机加上SMP的方式,加上高端阵列,这种性价比已经接近极限。最典型的就叫IOE,腾讯、淘宝提出去IOE(IBM、甲骨文、EMC),因为他们都是传统小机加SMP加高端阵列的代表,已经接近了极限。实际上在我们核心的一些系统上,也在用一些新的云化技术产品来替代小机。IBM最高端的小机在我们这里也不行了、承载不下去。

而且我们来看,任何一个单一的技术,可能都没有办法满足全部的要求,从这个图上面大家可以看到,你比如说MPP(并发分布式处理仓库),它往往是以结构化数据为主的,当然它面向海量的数据处理是可以的。但是它对于非结构化的一些数据、半结构化的数据可能就会有一些勉为其难。

Hadoop它对于一些海量的、批量的数据很有特点,处理起来非常好,又是开源的、免费的,性价比比较好。但是对于比如说灵活的、小量的、涉及到关联分析的这种数据,可能它又不擅长,而且对于Hadoop来讲,还必须有一个强大的支撑团队才有可能运营得更好。

同时还有流数据,流数据的要求实时性是非常高的,比如说信令,当我走到了国宾酒店,马上就应该给我推送一条广告或者说一条信息,这就依赖于我们的信令,它的要求是实时的。我们认为任何一个单一的技术都无法解决所有的问题,所以我们认为未来的技术选择应该是深度定制的混搭结构,主体的技术应该是MPP加上Hadoop加上流处理的模式,并且进行深度的整合和融合。对一些特殊的场景,比如说可以通过内存数据库来进行加快,来提升用户访问的感知,一点击一秒马上就出来可以了,超过三秒用户就觉得感知不好了。列存数据库可能适用在一些自定义查询类的、挖掘分析类的,不能写,列存读是可以的,写是慢的。所以这些可以作为一些辅助。

所以从架构上来讲,我们把它展开一下大家就可以看到,我们未来的考虑应该是这样的,对于这些结构化为主的、高价值的数据,可能以MPP的形式进行承载,对于涉及到比较复杂的关联分析的,还是SMP传统的强项,还会以它为主。对于实时的流数据,它会是相对独立的一套体系,对于这些流数据,往往它的实效性非常强,我们是不做留存的,比如说通过事件来驱动、实时交互的。

对于这些互联网的一些信息或者说运营商的一些详单,这种批量式的,我们就通过Hadoop进行加工、处理。

然后把这些所有的处理后的数据变成结构化整合到我的仓库里面,对上层进行提供应用。当然数据服务支撑平台对上层提供应用的时候,也不是单纯只有结构化来提供,对于一些实时触发的一些,也可以直接作用于我的Hadoop的平台或者说实时流的交互平台,这是我们的一些考虑。

在基础设施方面,其实不想讲得太多,因为在基础设施这一块儿,讲了很多年了,至少讲了有5年的时间了,我觉得从目前来看,这一块儿不是太大的问题。

这里我们可能简单地说一下,一个叫多虚一架构,指的什么意思呢?数据整合层是大数据处理的核心,必须采用的是并行计算技术,通过多虚一架构,由各个集群的管控节点统一进行管控,对外提供统一的分布式处理能力,这是一个。

另外一点叫一虚多架构,比如说其他的部分,像数据获取、数据服务、能力开放、集中数据管控,这些对于基础架构没有特殊的要求,只要你的计算能力可以跟得上就可以,这些可以采用虚拟化的技术实现一虚多架构,由云管理的平台进行统一管控,更好地去平衡一些负载。

事实上在我们大数据中心的构建当中,其实它也是多种技术、多种产品共存的,目前也是这样共存的。但是从未来来看,对于海量数据的处理存储也好,处理的及时性也好,要求都是越来越高的。所以我们认为计算存储一体化以及内存与多核计算,将成为未来的主要趋势。比如说这里面提一下现在比较多的,可能有X86加上万兆或者说4万兆以太网,这是一种方式;还有一种方式叫X86加上Infiniband再加上RDMA,直接内存读取交换,那效率可能会更高,这些都是未来发展的趋势。包括现在大家耳熟能详的一体机,甲骨文有、IBM有、惠普也有,也是发展的趋势。当然这些都体现出的是对海量计算快速响应的要求。

第四个方面当然了,我们同样认为数据的管控也非常地重要,数据虽然很大,但是也必须要可控、可管,所以在这里面数据质量、数据生命周期的管理、数据安全的管理和源数据的管理,也变得同样重要。这里我就不展开了。

后面对运营商来讲,未来的应用应该是多样的,我们未来考虑不仅仅是从企业的内部运营和管理,也会进一步考虑向外部的客户感知和外部合作四个方面实施多类应用的尝试,从而成为企业管理和创新的原动力。比如说在企业内部管理方面,这里举了几个例子,比如说可能可以做到多层级、全视图推进管理模式的改变,比如说全景仪表盘可以支持预算、任务跟踪、经营以及预算管控,可视、可控、可对比。过去我们衡量一个省公司、一个地市公司做得好不好,可能是单维的,大数据了之后你可以从多个维度反复地去剖析它,可以更加准确地看清楚一个经营主体到底怎么样。

那么还有数据的挖掘分析,知识库的积累等等,这是企业内部管理方面。在企业生产运营方面,会面向一体化、智能化、推进生产模式的整体优化。比如说这里面精准化的营销,我前面讲了我们掌握了客户的消费行为、一些偏好、一些位置的信息,大家可以想像我们有多少的事情可以做,是不是?只要你准确地把握了客户的需求,能够在他需要的时间推送给他,那就是有价值的,否则就是垃圾短信,对吧?你可以帮助客户理财、可以帮助客户推荐,甚至可以做一些联合营销等等,都可以做得到。

还有举一个例子,比如说审计,过去我们的审计都是派驻制的,我们叫随机,因为审计主要是发现企业经营当中一些问题的,可能说每年派下去两次看一看经营过程当中有没有问题、有没有水分、有没有违规。现在基于大数据之后由随机变成了随时,因为数据都在上面,随时可以看得到你的经营状况,随时看得到你的风险点,这样的话很多事情就做得更加有针对性。

在客户感知方面,前面其实也提到了一点,做到用户的360精准化下,能够洞察客户,能够做到精准地投放。同时在客户的接触面也会变得更加便捷、高效,用户也会有更多的自助、灵活、直观的选择。或许未来用户就可以在网上直接去定制自己的套餐,选择自己所需要的一些产品,这些都是可能的。外部合作,当然大数据的价值,相当一部分也是可以用于一些联盟合作等等。

总体这就是我讲的一些内容,不一定全面,也不一定准确,可能也涉及到了我们的一些厂商和合作伙伴,如有冒犯之处也请大家见谅,毕竟是一个开放的论坛,只是在阐明一些看法、一些观点。

这句话我觉得挺好,在这里引用一下,叫“大数据改变商业模式,云计算改变IT架构,运营商的大数据之路,正在进行当中”。

谢谢大家。

关键词:大数据 Hadoop IOE 云计算