技术
首页  >  大数据  >  大数据专题

中国金融电子化公司数据备份中心总经理周夕崇:中小金融机构灾备建设新趋势

2015-11-06  来源:中国信息产业网  作者:

CNII网讯 11月5日,2015开放数据中心峰会在北京国家会议中心举行。本届峰会由开放数据中心委员会(ODCC)主办,阿里巴巴、百度、腾讯、中国电信、中国移动、中国信息通信研究院、英特尔等单位承办,是国内在数据中心领域的一大行业盛会。会议由上午的主论坛和下午的五个分论坛构成,分论坛的主题分别为天蝎整机柜、新型服务器、模块数据中心、数据中心网络、行业数据中心技术发展与运维。

中国金融电子化公司数据备份中心总经理周夕崇在下午的行业数据中心技术发展与运维分论坛上发表了主题演讲。

中国金融电子化公司数据备份中心总经理 周夕崇

以下是演讲内容实录:

各位专家,各位同仁,很高兴有这个机会给大家分享数据中心建设的一些心得和体会。我工作在金融系统,干的是数据灾备,所以也离不开这个圈子,今天给大家带来的分享主题也是灾备服务云平台,引领中小金融机构全业务灾备建设的新趋势。主要从这么几个方面给大家做一些交流:

第一,探讨和分享一下现在灾备建设的一些现状,灾备对于金融系统来说,对于数据安全,保障业务连续性重要的手段和组成部分,所以我们简单分享一下灾备建设的现状。

第二,灾备服务云在全生命周期的云服务有哪些。

第三,灾备接入技术,在灾备云平台上灾备接入技术都有哪些方面的内容。

第四,在金融行业当中,要实现一个金融机构全业务的灾备系统,需要具备哪些条件和哪些方面的接入和数据中心需要整合哪些基础设施。

时间有限,可能带来的内容比较肤浅,请各位专家指正。首先谈一谈要做金融系统的灾备建设,首先要谈谈我们合规性要求,我们灾备建设在接管部门都是非常重视和强调的,所以不管是对我们的国有大中小型银行或者其他金融机构,甚至对一些小微,甚至现在是第三方支付的金融机构,接管部门都提出了非常明确的灾备建设的要求。当然,不同等级的机构,它需要满足的灾备要求是不太一样的,主要集中在两个指标:一个是RTO,一个是RPO,比如说我们商业银行的业务连续性接管指引,其中对于一般性商业机构,RTO不能大于4小时,RPO不能大于半小时,对于多数中小银行完成重要业务的灾备系统建设,具有一定防灾容灾能力是非常重要的。在灾备行业当中,现在两地三中心的建设是平常的做法,从接管部门来说,建两地三中心,需要金融机构达到一定资产规模要求,有几个条件:一、资产规模在一千亿以上。二、有跨区经营。三、还有指定的业务系统。比如卡系统,或者指定业务系统经营的时候,需要我们建设这种容灾灾备体系中心。两地三中心,就是在两个不同的地方分别建设生产中心,同城和异地灾备中心,这三个中心构成了一个完整的容灾体系。现在金融机构业务发展也是非常迅速的,银行业务多样化,IT系统平台的多样化,都要求我们对灾备建设提出了比较高的要求。而且银行业务的连续性,是对服务百姓,服务大众,是一个非常重要的指标。比如我们银行系统瘫痪了,两个小时就需要报接管部门,到四个小时我们就需要报国务院。

在这种要求下,金融机构对于建设灾备系统,都要根据它自身的条件,选择相应的技术平台,相应的数据中心来进行建设。为了适应金融机构多样化的业务平台和技术平台,可以提供选择的灾备技术,可以大体归为几类:一类是基于磁盘存储复制的技术,还有基于数据库复制的技术,以及基于卷复制的技术。更高级一点的是基于连续数据保护的技术,每一种技术分类都有相应的代表产品,同时,它也有相应的技术特征。不同的技术也适应于不同的技术环境。

对于传统的中小银行,建设灾备中心来说,要做到全业务或者重要业务系统在灾难发生的过程当中,实现业务接管,保证业务连续性,有一些除了自身数据中心建设,自身的业务系统数据有备份的前提下,还需要得到这些金融机构外延业务的网络支持。比如说金融机构要做跨行业务,它需要跟人民银行的清算支付系统,要有连接,跟银联卡支付网络需要有连接,和人民银行业务网需要有连接。所以,这些都需要具备一些外围条件,才能做到金融机构在生产中心失效的情况下,切换到同城灾备或者异地灾备中心的时候,能够顺畅的实现它的业务。

我们看看现在数据中心发展的方向,比较传统的数据中心建设,大家都很清楚,现在数据中心逐渐向云数据中心方面发展。对于云数据中心来说,它有相应的不同的和传统数据中心相比,有各种不同的技术特征。在这种情况下,我们怎么样在利用云技术,来做灾备,利用面对云生产中心的技术环境,我们怎么来实现同城灾备,异地灾备,这是需要我们进一步探讨的一个话题。

我所在的单位,一方面是中国人民银行的软件开发中心,同时也是中国人民银行的同城灾备中心,同时在人民银行、银监会以及相关的金融机构支持下,我们成立了一个叫中小金融机构灾备外包服务中心,这个中心的成立主要是为了服务中小金融机构,减少中小金融机构独立建设灾备中心的社会成本。在这个实践过程当中,我们在传统异地数据中心建设的基础上,我们也利用云计算的技术,搭建了一套中小金融机构灾备服务云,这个云是科技部重点支撑项目支持的。有很多单位参加,通过建设灾备中心的云的技术架构体系,提供灾备的数据复制服务,提供灾难的演练服务,以及生产接管系统的验证服务,培训服务,运维服务等等相关的这些服务。在项目已经经过三年建设,现在已经基本就绪,已经有十几家金融机构切换到我们的灾备服务云平台上做灾备。大家能够看到我们通过云的手段,可以比较方便的管理灾备中心的灾备资源,能够实现我们用云服务主机的申请,各种计算资源,存储资源,数据复制资源以及网络资源在线的自主管理。同时在云中心那边也提供一些比较完整完善的监控服务的体系,来保障用户的一些数据安全。因为放在云平台上保护的这些数据,都是商业银行的核心数据,所以安全对他们来说是非常重要的。

同时,在这个云平台上,我们还搭建一些应急指挥的平台,灾难恢复的自动化调度平台,来辅助我们在容灾处置过程当中的高效性和有效性。灾备服务有不同的级别,我们总体来说,可以分为从最基础的基础设施租用,到定时的数据备份,再到最终全业务的系统容灾,不同的建设级别,来满足金融机构对于接管要求的符合程度。要做到一个全业务接管的灾备中心首先这个灾备服务云,就要能支持多种灾备技术的接入,灾备技术的接入,刚才我已经简单提了一下,灾备接入技术可以分为几个类型,这个地方简单阐述一下,我们每种类型在做灾备复制过程当中,它的一些特点。

首先讲的是存储复制,存储复制就是在生产中心或者同城灾备中心,与灾备服务云或者异地灾备中心服务云上,相互之间通过存储,直接复制的方式来实现,这些方式有一些特点,它需要两端存储都是同型号,同品牌的设备,占用的带宽也比较高,这种存储成本比较高,设备成本比较高,但是它的复制效率很高。二是基于数据库的复制技术,在生产与灾备服务云之间,我们基于数据库的操作日志复制到云端以后,在云端重做这个日志,把这些交易还原到云端数据库中,这样来实现容灾备份。这种实现技术它的特点是,窄带环境下就可以实现,但是它生产中心和灾备中心,架构不一定完全一样,可以不一样。

还有是基于存储虚拟化的一些复制技术,来实现对灾备云的接入。在基于虚拟化的方式,就是把不同的存储虚拟化成一个,虚拟化的存储资源,生产中心,生产系统写到存储里面以后,再从存储里面把数据复制到云端的存储里去,这是一种方式。

还有对于我们一些小微的金融机构,资产规模比较小,投资能力有限的一些小微金融机构,在接管要求不是很高的情况下,也可以通过一些传统的备份技术来实现容灾。在这种情况下,一些我们讲的定时备份来实现。比如小微金融机构像村镇银行等一些小的金融机构,他在日终以后把数据备份到云端实现容灾,但是它的容灾级别低一些,而且恢复过程中自动化程度和效率都受到一定限制。

所以在数据中心和灾备中心建设过程当中,有这样一些发展的方向,最早是先建一个生产中心,然后再建设一个纯粹作为备份使用的同城或者异地中心。在这种情况下,后来演变成发现备份中心计算资源这些闲置浪费,所以再演变成把备份中心作为报表处理,查询业务放到备份中心去,现在大家比较热衷建设的就是投资能力相对较强的金融机构,建设双核的数据中心,就是两边的数据中心都能接收技术,处理业务,这样在数据一致性保障需要非常高的要求。当然,设备和环境的要求也比较高,投入也比较大。

刚才讲到要做全业务数据中心,能够接管金融机构全业务的数据中心,我们需要一些外围基础环境,在我们做中小金融机构灾备云的过程当中,也考虑到了这一点,所以把这个灾备云平台和人民银行的支付清算网络,和银联卡的网络,和人民银行的业务网全部实现联通,同时和城市商业银行资金清算中心,以及农信云资金清算中心,他们的网络也都实现了连接。因为农信云资金清算中心的生产中心就跟我们灾备中心在一起,城市云资金清算中心生产中心也在我们的异地灾备中心,在实现业务接管过程当中,它的云连到我们云上来,这个云就可以跟支付、银联卡等等进行交易。这些是讲的和支付清算接入的一些结构,和银联的接入,和人民银行业务网的接入。和城市商业银行资金清算中心的接入在北京和上海我们都已经实现了互联。

云平台建设在这几年实践过程当中我们发现,对于中小金融机构确实减少了灾备建设投资,有非常明显的作用,一些很小的金融机构,它自己建设灾备系统,完全是不可能。投入太大,承受不起,但是它通过我们的云的方式,它就能够承担得起这个建设成本,所以比较容易能够达到接管灾备的要求。

现在给大家分享一个案例,这是我们实际在灾难情况下,接管业务当中案例的一个。在分享之前,我想澄清一些概念,我们讲的容灾,很多人一听就是火灾、水灾、地震等自然灾害,造成生产中心失效的情况下,才叫容灾。实际上我们在做灾备中心运营过程当中,发现其实这部分业务是很少的,因为毕竟因为自然灾害造成数据中心的大规模失效,概率很低。而日常的,比如金融机构在做业务过程当中,举个例子,在日终或者年终批处理的时候,有可能有些技术故障或者技术原因造成生产中心的数据错误或者丢失,这些情况也是我们容灾范围之内,所以在这种情况下,我们也是要应对而且需要快速解决它的生产中心的数据和系统不可用的情况。

举个例子,比如商业银行每年年终的时候,12月31日晚上肯定要做年终结算,第二天早上六点一定要把所有批处理全部做完,能够实现开门营业。在六点之前如果批处理有问题,整个数据都是不可用的,哪怕差一分钱也不行。在这种情况下,如何快速让它恢复数据,重做日终操作,这就非常考验灾备中心响应能力的一个事件。我们经常会应对这样的一些情况,比较典型的给大家分享这个,2012年,这是一个实际的自然灾害,辽宁营口的盖州市,当时发大水,这张照片是在三楼上拍摄的,当时的大水已经把二楼数据机房全部淹了,在这种情况下,在水进机房之前,我们迅速启动接管程序,在40分钟把它整个数据中心的业务全部接管到北京,在北京运行了36个小时以后,在它的水退了以后,它的生产中心临时搭建了生产环境,具备运营条件以后,我们再给它切回去。

在实际运营过程当中,我们除了真实容灾的过程当中,我们会定期跟所有在云平台上的客户,每年至少做一次真实业务切换演练,把商业银行的业务,生产中心真实的断掉,切到我们云上来,运营一晚上,做一晚上业务,然后带着增量业务再切回去,这是我们做云灾备中心一些运营的正常业务。

非常快的介绍一下我们这个单位的情况,我们是中国金融电子化公司,是人民银行直属企业,也是人民银行同城灾备中心,我们也承担中国国际金融展,我们也有相关的软件资质。以上就是我们的基本情况,谢谢大家!

关键词:开放数据中心峰会 数据备份 周夕崇