前面最原始的状态我们不讲了,行业整体状况,我做一个业务,这个业务怎么做好,这个业务处理流程怎么样的,可能用到哪些数据,把数据搞过来然后存下来,这种处理最后结果造成业务孤岛,每个每个之间的数据没办法融合,最后走到融合阶段,把融合起来的数据然后做成数据。绝大部分中国应用处于以业务为中心构建信息化的系统,我们一直讲信息孤岛,为什么形成孤岛?因为它考虑这个业务就是考虑自己,他用到的数据有可能是别人的,但是我也要存一份我要搞数据库,掌握在我自己手里,数据孤岛、格式孤岛非常严重的。现在我们如何推动这些行业逐步逐步由业务驱动走向数据驱动,怎么让我们行业应用走到数据融合这一步,开始融合组织内部、行业内部的数据,基于这些数据能够创造一些价值,让我们客户看到你数据融合起来是有用的。这一点可能现在很多人都做这一部分的工作,我怎么样让行业用户认识到数据的作用。最后我们真正以数据为中心构建的信息系统。我考虑信息化系统首先想我在我组织里面我有哪些数据,我能收集哪些数据,我怎么进行存放和处理,这些数据怎么为我业务服务,怎么反过来指导我业务做得更精细,把你整个的工作做得更好,节省人力,提升你的效力,使我们信息系统未来成为智慧城市,或者智慧的金融等等像这样的系统发展。
可能刚才说了半天在行业里面的大数据大家可能很多人有疑问,大数据有很多数据,为什么像浪潮这样公司或者我们很多公司盯着这一部分,我们有互联网的数据,可能还有一些数据在科技计算里面产生的,在现在HPC的系统,或者天气预报的系统里面也有庞大的数据。但是行业里面具有行业很多的特点,首先一个特点是说这个也是我们在跟很多行业用户接触的过程中发现的,就是说在整个的数据最开始的采集阶段就会面临很多很多问题,我们经常说这个数据可能需要做清晰,数据质量不行,我们发现很多行业里面数据质量非常高,因为数据都是定量采集,公安行业有所有人的户籍信息,它那里面没有什么不正确的数据,这些数据相互之间共享做得非常差。共享差可能有各方面的原因,比如说有政策原因,制度原因,这些人主观方面不愿意共享的原因,从我们搞技术的人来讲我们也会分析,从技术上面我们是不是有办法能够消除这些人的顾虑,能够让他们愿意把这些数据共享起来。即使在一个行业里面公安里面可能户籍信息跟刑侦信息交通队的信息他们互相之间也是不通的,如果把信息泄露出去,看到某一个人所有亲属关系在网上找谁去,在以前肯定搞户籍的人出问题了,如果互通变成一个大平台可能很多人追查责任都找不到。在这个层面上对于技术层面那就要采取一些措施要能够让他们相信这些数据是可以有一个很有效的方法而且是很安全的方法能够共享给大家。能够让需要这个数据的人只看到他需要的那一小部分数据而不是得到所有数据,这个是摆在我们行业大数据里面首先面临的一个相当大的问题,应用系统最后做着做着做不下去了因为拿不到数据是一个很大的问题。
在分析处理阶段我们觉得在行业用户里面相当大的困难就是现有的我们讲大数据的系统,既然讲大数据的系统肯定跟以前的数据处理系统或者我们简单拿一个文件用一个系统很大的区别,现有系统目前为止做的比较差,整个开发友好性非常差的,这一点我们整个的推广过程中深有体会,我们找ISV,发现传统行业的ISV确实在这个平台上面开发的难度远远大于我们用数据库用中间件,在那个领域有很成熟的开发接口,很成熟开发工具大家来用,在Hadoop平台或者Spark平台上面可能需要完全不同由另外一帮人做这个程序,而且做的这个过程可能很复杂。我们任何一个应用的迁移从原有平台迁移过来要花费的时间都是以月为单位,以年为单位的。这个很大程度上妨碍了大数据很多新技术在行业里面应用,这些行业用户没办法像互联网那样养那么多人,没有办法做这个事情。