大数据迷思

数据爆炸的年代,大数据已经不是一个很新鲜的词了,几乎所有的人都对这个词有着一定的理解。大数据的重点是数据的分析和挖掘,但具体如何理解大数据才是正确的呢?

举个例子,在澳门或美国拉斯维加斯的赌场,都有一些专门对付不受欢迎赌客的系统。赌场在每一个重要的角落,都安装有视像头,从一个赌客进入赌场开始,他的面容已经进到赌场的海量数据库里。一家赌场可能安装有几千个或以上的视像头,一天24小时不断的把海量的数据,传送到数据库里。赌场当然不会只是很被动的等到有老千干了事情,再从海量的数据复查,因为赌场有可能已经被骗了很多金钱。赌场的系统会从每一个赌客进入赌场开始,把他的面容特征,和数据库做实时的比较。如果某人的面容,和数据库里不受欢迎赌客的面容一致,赌场就会立刻邀请他离开赌场。整个过程的关键,就是时间。越长的时间,代表赌场有机会被骗的金钱越多。

大数据的核心设备,当然是存储系统。所有的数据,都是从存储系统送到应用服务器分析计算,再产生报表。在整个过程里,数据会在存储系统和应用服务器间来回很多遍。时间的关键,就在于存储系统的IOPS(Input/Output Operations Per Second,每秒进行读写操作的次数)。存储系统的IOPS越高,整个数据挖掘的时间就越短,就是这么简单。

但是,往往很多用户都没有在这一点上有太多的了解,或是,包括存储系统供应商的人,可能也没有太多的了解。结果是,实施后的数据挖掘方案,所需要产生报表的时间太长,根本没法满足原来想要的目标,并导致整个数据挖掘系统项目的失败,投进去的钱变成白投。

在市场竞争如此激烈的大环境下,大数据方面的投入还是需要谨慎,切莫盲目的去踏入你不了解的范围,也不要被大数据的迷雾迷失了自己的眼睛!

版权所有:北京天地通电信有限责任公司 公司地址: 北京市丰台区杜家坎周公路3号院甲

电话:010-52713196 010-52713168 传真:010-52713196-3131

ICP证:京ICP备11033530号-2 京公网安备11010802012321号