技术
首页  >  技术  >  技术要闻

数据的未来:规模更大 速度更快 无处不在

2017-08-10  来源:中国信息产业网-人民邮电报  作者:曾勇

时至今日,企业要处理的数据与日俱增。由于他们既要快速地处理数据又要传递更多具体可用的信息,处理过程还要接近实时,这都是不小的挑战。

具备创新头脑的企业总是对数据沉迷,渴望能理清它们,并从中获取有用的信息。这是持续的挑战。当人类掌控数据的能力变强,探索并分析数据的欲望也会越来越浓。

大规模数据分析正迈入越来越多的新商业领域。不论是高管、销售、市场营销、客户关系、财务、运营乃至物流,几乎所有现代企业的商业范畴都可以从越来越多的数据中获得竞争优势,改善现有的业务流程,建立新的应用。数据分析也不再是数据学家的专利。它成了现今一般的日常商业工具,且无处不在。数据分析工具和软件的开发工作也构成了新挑战,当数据技术普及后,开发者的一大任务就是将高度复杂的技术变得简单直接,从而让与日俱增的新用户能容易上手。所以,衡量的指标不仅在于规模,“可用性”也益发重要。

数据分析不管“大不大”都归结于搜索的能力。人们总希望从数据中获得新洞察和知识。十年前,向一般用户提起搜索二字,没几个人能立刻体会其带来的可能性。但是利用像Elasticsearch这样的开源技术,一切新问题都能透过搜索找出,要跨越先前的心理障碍可说十分简单。我们看过很多用户利用数据技术,应用于各种场景而不仅仅是常规的搜索。从另一角度看,这也标志着开源能带来的好处。用户甚至也没能想象到自己的创新力能到达新的高度。

按照定义,“大”数据普遍是混合多样的。名为“Elasticsearch”的搜索功能结合了数据分析、文本及结构搜索,是一种灵活的组合。而数据的形式并不重要,不论是典型的网页、文档,还是银行的交易、网站服务器的日志、各式各样的度量指标,都可以加以有效利用。数据的形式和数量已经没有太大关系,无论是结构化还是非结构化的数据,人们想要探索就可搜索。更进一步地说,即使数据本身的内容很复杂只要搜索可行也会变得无关紧要。

如果我们回头看看过去几十年来企业数据分析的发展,这些趋势在很大程度上都取决于搜索技术的进步,从而实现新的、更强大的搜索用途。要有能力搜索数据的不同维度和不同方面的相关性、搜索非结构化数据,或者仅是搜索更多的新数据,存储和索引技术在其中肯定起了重要作用。然而,这大多是为了制造出新的、更强大的搜索方式。例如,图分析和机器学习等最新的数据技术就是更成熟的搜索应用。图分析允许用户在无需基础数据的情况下寻找新关联。现今世界,搜索技术几乎压倒性地拥有一切可能性。这提供了一种更快速、更强大的方式探索数据,进而了解重要趋势和关系。图分析也提供了一套综合功能,方便决定哪些趋势值得深入分析并持续监测。即使是机器学习,核心也需要有搜索技术的支持。搜索技术一直以来都是用来查看随时间发展的数据行为,并以此辨识重要事件的关键指标。IT运维就是典型的例子,其中的历史应用程序、服务器和网络日志上的分析,这些数据都可以用于识别可能会发生的系统故障。

过去,企业会要求熟练的数据科学家建立统计模型,并为每个指标确定极限。这是一个复杂而艰巨的任务。尽管如此,在使用模型来监控实时数据时,仍可能产生较高的误报。结果是行为分析仅限于大型关键任务、数据中心和金融交易等高回报的领域。但是机器学习技术出现后,行为分析工具开始迅速普及,能够以更高的准确度自动生成机器学习模型。三四年前,一个完整的研究数据的科学团队才能做到的事,现在各种现成的软件工具就可以实现并为各机构所用。这同时为不同业务的领域开辟了新的以搜索为主的应用方向。

在所有的业务当中,需要分析的数据量未来都不会减少。但大小只是一个维度。“大”可以是一场变化,这意味着更大、更快、更实时甚至具备预测性。而数据分析也在自我进化,懂得从数据中了解并学习。在可以预见的将来,这些技术都会被具备创新思维的企业所应用。

关键词:数据中心 数据分析 可用性 大 搜索技术