大数据的迷雾

相信在今天大家都知道大数据的热度有多高,这可能是IT发展史以来最广为人知的热度词了,可以说是散布于各行各业,已经远远超脱出了传统IT行业范围。

大数据会改变企业的营销方式,精确分析客户行为;将改变企业的运营管理方式,辅助企业决策,预测风险,提升效率……

但是,在我们为大数据歌功颂德之前,需要先考察一下大数据所谓何物。

IT领域从来都不缺概念,无论是3V还是4V的大数据属性,新概念一出,就会有人想当然地、在没有经过深入的思考和考证之前,表现出对新概念的认同。

不可否认,移动互联网、社交网络、物联网让人类社会的数据量大幅增长,然而,这就是大数据吗?在大数据的概念出现之前,就没有客户分析,没有辅助决策、风险预测吗?在大数据的概念出现之前,相对于我们的数据处理和分析能力,我们所拥有的数据就是“小数据”吗?

显然,答案是否定的。

数据挖掘和数据分析并不是新的学科,我们在这一领域拥有很多成熟的技术。笔者以为,今天所讲的大数据,正是对数据挖掘和分析的不断完善和提高,将更多的非结构化、半结构化和流数据引入数据挖掘和分析的领域,而不是另起炉灶,并为其赋予一个似是而非、含混不清的名词——大数据。

大数据能够被热烈地讨论,是因为其在精神层面上满足了人们对未知事物的好奇心,在物质层面上有Hadoop、NoSQL这样实实在在的技术作为支持。实际上,如果能够厘清大数据的概念,把大数据定位为对传统数据挖掘和分析的提升,那么就可以很容易地认识到,Hadoop、NoSQL并不是大数据的全部。

Teradata的CTO宝立明就认为,Hadoop是一个非常好的、价格低廉的非结构化数据存储和管理工具。然而就像任何事情都有两面性一样,Hadoop在一些数据结构稳定、需要进行整合分析的场景中并不适用,或者说有其他更好的方式,并且Hadoop的开源特性会带来更高的部署成本。

归根结底,我们不应该被大数据风暴迷了眼睛。我们讨论大数据,依然是希望通过对大数据的挖掘和分析来发现数据的价值。要最终挖掘出数据价值,既要运用新的技术,也不能抛弃传统的数据挖掘和分析的技术与方法,不要对新技术盲目崇拜或者盲目排斥,而应该对其进行评估,以最优的方式将新技术与传统方式结合起来,这样才能最大限度地获得数据的价值。

在信息爆炸的年代,我们应该更加理智的看待所有的新鲜事物,大数据当然也不例外。这当然不是说我们要对大数据“敬而远之”或者说这根本就是个噱头,我们所要做的是不要被过分的炒作弄混头脑,脚踏实地的跟住大数据时代的脚步!

版权所有:北京天地通电信有限责任公司 公司地址: 北京市丰台区杜家坎周公路3号院甲

电话:010-52713196 010-52713168 传真:010-52713196-3131

ICP证:京ICP备11033530号-2 京公网安备11010802012321号