最终我们可以借助这种技术跟这些分析的能力,最终是对这些出错的事件进行预防。我知道一三事件出现以后,我的运维人员可以提前的得出预警,这是我们现在很多数据中心是借助大数据分析的技术,能够不断有效的在事故出错发生以后,及时有效的进行事故的排除。更关键的是能够对将来出错的预防,大大的提高我们所有的系统的运营状况。
大数据大家说了很多,我们经常说温故而知新,在业界对大数据有各种各样有不同的解读,现在有一种业界对大数据公认的定义。首先我们说到大数据,我们经常用4个V定义,第一个就是value,就是大量、海量,数据已经超过了爆炸的状况。业界分析师说现在我们全球所有的数据量,已经超过了人类自从有语言以来所说所有语言的36倍。借用另外一个全球的报告,特别是近几年,我们每18个月,全球的数据量会翻一番,您可以想象我们现在这个数据量之大。
第二个定义就是速度,我们现在很多的新的数据语言是具有时效性的,什么样的数据具有时效性。我们这样的数据往往是具有流动性的数据,我们现在有物联网,有很多的传感器。比如说最近我的团队是去年,我们是跟中国的一家电网公司合作,他是在电网的关键设备上都加了传感器,这些传感器24小时,他能够对关键的电网设立200米之内的所有的气象信息进行一个精准的捕捉。这些信息的温度,都是具有实效性的,首先是大量、海量,这样的数据是流动,具有时效性的。我们将这些数据进行实时的分析以后,我能够做到提前72小时,非常精准的预测到,这些气侯对该网设备的损害的预警。如果预警达到预警值以后,会提前72小时,会给电网公司的运维人员发预警,降低电网的受损率,提高电网的运营时间,降低了电网的运营成本。如何对这种有流动性,时效性的数据,进行实时的分析,是大数据当中经常遇到的问题。
第三、就是多样性,我们现在有大量的数据,各种各样的多媒体的数据,社交媒体的数据等。我们现在有大量、海量、多样性、动态、静态、流动性的数据。如何确保数据的真实性,对很多的企业是一个重要的命题。我前面提到,大数据的分析,大数据最大的魅力和它最大的商业价值,不是在数据本身,而是如何基于数据进行分析,产生洞察力。而且大家也明白非常浅显的道理,垃圾进来,垃圾出去。如何确保数据的真实性,确保这个分析结果的准确性和可靠性,是我们现在很多的企业,在大数据这个新的时代,面临的一个重要的命题和挑战。
我去年回到中国以后,见了中国非常多的企业和政府,方方面面的一些朋友和客户。很多的朋友会经常问我说,大数据分析跟我们传统的数据分析,到底有什么区别?他们觉得大数据分析非常的神秘。今天我想借这个机会,来跟大家分享,大数据分析的几个关键的命题和理念。从而来跟大家分享,其实大数据分析,没有神秘可言。
第一、因为大家做分析做了十几年、二十几年。现在的大数据分析,跟传统意义上的分析,首先第一个本质的区别,是传统的分析是基于结构化,和关系性的数据。而且往往是取一个很小的数据指集,对整个数据全体的预测和判断。而我们现在到了大数据分析的时代,整个的理念是完全改变了。我们现在大数据分析的技术,是允许我们对整个数据全集技术直接的存储和管理分析。这是第一个不同点。
第二、因为以前的分析,是一个小样本的分析,所以我们往往要用小样本,来预测出整个数据全集的特性跟特征,这个就决定了我们所采样的小样本的数据,必须是高品质的。这个数据的质量必须是保证的,否则我们最后整个的预测出来的对数据全集的认知,可能就会出现很大的偏差。如前面所说的,我们现在大数据分析,本身就是对一个数据全集的分析,所以他对数据的一些噪音,是具有一定的包容性。
第三、像我所说的,原先的传统的数据分析,是有小样本数据,对整个全局的数据进行一个分析和预测。所以在整个的预测分析过程当中我们往往采用因果关系的这么一个推测,这么一个推理的过程。现在大数据分析,因果关系这种分析,并不是我们大数据分析的关注点,我不需要知道因为所以,现在基于大数据分析,我们是基于整个数据全集的分析,对我来说,对我们的企业来说,我所需要了解的是,我在对整个全集的数据进行分析以后,我只要知道那些关联性的分析,只要知道一些规律性的特性就知道。就是那个才是关键。我把那些规律性的结果,如果知道A跟B永远一起出现,周末的时候往往啤酒跟尿布的销售同步上升,我在大数据的分析情况下,我不需要了解为什么啤酒和尿布的销售量在周末会同步的增长。对我商家来说,只要知道尿布和啤酒是同步上升这么一个结果就可以了,基于这个结果,我就可以制定很多的商业策略,制定营销的手段。
第三、就像我前面所说的,我们现在的数据,往往是大量、海量,特别是有很多的新兴的数据语言,很具有时效性,打破了原先我们把数据搜集、清洗、存储、然后进行分析的滞后手段。现在很多分析的需求,往往是实时的。我是数据采集了以后,边采集,边分析。我将分析的结果,再来决定我是不是把相关的数据,有效的数据进行充足,无效的一些垃圾数据,我可能丢弃了。这是大数据分析的另一大特性。我也想今天借这个机会跟大家分享一下。