大数据非结构化数据难题

现如今这个时代,互联网企业早已布局,通过数据分析了解用户的喜好和习惯。运营商也想在大数据浪潮中分一杯羹,数据中心和宽带网络建设正如火如荼。政府、金融、医疗纷纷布局大数据应用,提升信息处理能力成为关键。现在,大数据时代已然成为了社会发展的潮流,而非结构化信息管理,就仿佛其中一艘刚刚出发的船只,最后能否顺利扬帆,汇入到时代长流当中,还是说随波逐流,被迫默默地偏离航道。

何为非结构化数据

在这里要给大家讲一个概念,在目前的大数据时代,信息按照它的格式大致分成两个类别,一类是结构化的数据,另外一类是非结构化的数据。

结构化数据是按照特定格式整理的数据,它们能被企业的核心系统进行储存管理。然而,随着大数据发展的迅速,巨大的数据量已经从 TB 级跃升至 PB 级,数据结构变得更加复杂,大部分数据信息都已经脱离出数据结构的范畴,属于非结构化数据,包括纸质信息与数字化的视频、音频、邮件、图片等等,各种数据格式之间互不兼容,而且人们对数据的访问和使用更具随机性,这些特点给数据的提取、存储、管理和应用带来了很大困难。

大体上我们可以把非结构化数据分成两个类别,一是数字化信息,一是纸张信息。

可能大家认为数字化的信息都是结构化的,但实际上绝大多数数字化的信息属于非结构化的信息,无法被直接使用。且当这些信息散落存储于电脑、pad、手机等各种设备中,而且在多数情况下都互不兼容。以PPT为例,可能不同的人使用的格式都是不一样的,它无法很好的融合在一起。

另一类非结构化信息就是纸张信息。在数字化设备非常丰富的今天,纸张还是非常重要的信息沟通工具,在很多业务流程当中担任很重要的角色。这里也举个简单的例子:比如说银行,大家现在去银行开户,像填写表格等都要用到很多纸张;如果大家去交付货物,也需要用纸张来确认。但是,大量使用纸张一则会产生浪费,二则很容易导致低效;完全依赖于纸张进行沟通的业务流程仍是现今很普遍的现象。

顺利扬帆并非易事,企业核心系统无法管理非结构化信息

企业内部的信息也可被分成两大类,一类是按照特定格式整理的结构化信息,一般由企业的核心系统例如ERP、SAP进行管理;另一类是以纸张、或数字化等形式存在于核心系统外部的大量非结构化信息。研究机构的调研发现,企业内部的信息80%以上的都是非结构化的,这些信息中往往包含了很多对企业有价值的内容,却几乎完全没有被管理和有效使用。

除了信息以外,还有另外一个很重要的元素就是流程,信息和流程是结合在一起的,有些时候信息会驱动流程,有些时候流程要去使用这些信息和内容。目前企业中超过2/3的流程也 都是非结构化的,即通过纸张以手工或半手工的方式在进行管理,这些流程游离于企业核心的管理系统以外,往往造成严重的浪费和低效。

非结构化信息、流程和企业的核心系统之间无法交流,势必造成企业内部信息沟通的不畅,从而会导致企业缺乏对现状的能见度,甚至在有些情况下出现失控,造成客户服务满意度降低、营业收入及利润难以达成、整体市场竞争力下降等等问题。

总的看来,科技社会的大数据来临为时代主流,而非结构化信息管理的难题还仍需破解,非结构化信息能否被有效管理,这对于企业在未来的发展道路上影响深远。

版权所有:北京天地通电信有限责任公司 公司地址: 北京市丰台区杜家坎周公路3号院甲

电话:010-52713196 010-52713168 传真:010-52713196-3131

ICP证:京ICP备11033530号-2 京公网安备11010802012321号