第三个问题,我们今天所说的大数据不仅是规模大,更重要是其他的特点。第一个我们需要有大规模的数据管理和处理能力。第二个特性是多样的,数据从多个来源来的,它的形态不一样的,我们需要有多模态的管理能力,我们需要管理视频,管理视频的特征,还有图片语音的特征,而且能够对它特征进行更好的分析查询的服务。我们需要具有关联分析能力,数据从多个来源来的时候,一定把多个来源的数据放再一块分析才可以发掘你要的东西出来。另外一个数据是不断的变化的,我们除了具有大规模数据处理能力之外还需要有智能的数据挖掘算法。
多媒体的分析、NOP、广告这些,中间是数据处理和管理包括大规模数据仓库和平台,后面是技术架构,软件架构包,实时的数据计算以及硬件的基础设施。这个基础之上我们可以把一个完整的大数据系统构建出来,比如说对于大规模的数据通过分布式的存储和计算引入进来。我们初步处理以后可以灌到机器学习算法里面去,通过引擎把消费者连接起来。让人标注可以帮助到我们的学习,现在所谓众包就是这个概念,有这样的系统之后我们可以支持评估、推荐、智能交通这样一些APP。对于实时的存储和计算我们除了做那些功能,我们还需要把完整的体系构建出来。我们需要有分布式的结构,你要做实时的分析数据一定要放在内存里面,你把数据放在内存应该在上面直接构建分布式数据处理。
我们发现说我们做了这么久软件上的架构还是不够的,很多问题还是解决不了,比如说我们做一个迭代,大家知道它是PSP的模型,所有的节点都需要你装满数据,这个基本上系统的瓶颈都在最后的交互数据上。这些东西除了我们软件做很多模型,更重要我们需要有新的硬件体系机构支持它。包括Power-efficent,还有以数据的移动和处理为中心,新的存储、通信、计算架构,异构化,同时还引入ARM、GPU、FPGA等技术。
我们现在做新的CRAY,这个CRAY机器里面有很多线。今天有了更多的数据以后我们还是要回到以数据交互为中心,而且这个需要跟其它服务共享基础设施,才可能成为真正的大规模系统,提高内聚性、配件池、标准化交付,满足应用层的差异性需求。以软件接口的方式隐藏异构性。现在我们做的事情就是新的软硬件一体的集成方案,包括应用驱动、软件定义、实现全系统的集成。这里想给硬件公司提几个建议:一个是硬件应该尽量简化。赢家呢可控制性、剥离控制逻辑应放在更重要的位置,硬件应尽可能多地收集数据,包括历史统计、当前状态,并通过数据分析去做更多的优化和智能。谢谢大家!