第四随着虚拟化技术快速演进,我们说云计算和大数据终于可以融合起来了。
虚拟机帮助快速部署已经得到了时间的验证,但是谈得这种方式把一台机器拆分到很多小机器,每台机器给用户使用。他觉得一台机器不够,我需要上千台、几百台机器组成一台机器处理。这个怎么融合起来,是不是我把虚拟机替代物理机做成了一个机群,这个尝试基本上都是失败的,因为IO的瓶颈是非常严重的,特别是在虚拟机跑大数据应用,CPU利用获得99%,很少有人在虚拟机上把CPU用到99%,这样对开发商有很大考验。我们看到首先第一个快速发展,他们之间可以做资源隔离,这使得我虚拟机变得非常轻量级。很快一家公司叫做Docker发现应用打包迁移安装还是不方便,所以做了一个工具,使得你做打包迁移非常容易。大家发现还不大够,因为我要创立一个应用,一个单个肯定应用比较容易,但是多个肯定应用比较麻烦。谷歌开发一个开源项目叫做Kubernetes简化创建机群的任务,你可以非常方便的创建Hadoop机群,也可以创建传统的应用,提供多肯定机群的部署同时也通过一些技术服务,比如说一些调度服务,这开始具备分布式操作系统的雏形。另外一个方向像大数据领域去年推出Hadoop2.0资源管理的框架,这个确实是革命性的,因为把资源抽取放在最底层上面,在上面可以跑多种框架,我们觉得可以一统天下了,大家发现YARN资源隔离做得不够好。把Cloud Computing做资源的调度,Cloud Computing内部有Docker进行资源调度。
大家看到在这个领域过去一两年发生了革命,从底层虚拟化技术到上层都在发生非常大的变化。这个自然引出数据中心操作系统的概念。我们把数据中心操作系统分成三层,最底层一层就跟操作系统内核是一样的,我方便的创建方便销毁,对CPU资源网络内存进行处理。我们需要多个服务之间能够发现这种机制,这种机制是目前还是缺乏的,我们需要在这一层继续往上加一些技术服务。再往上是平台服务,我们可以创建Hadoop、Spark等我们可以部署这样传统应用。这种架构提出来我们发现现在市场上有几种,两个技术方向,我们不知道哪一种获胜,但是我更倾向于下一种。把它作为跟分布式架构同一个级别的。另外一个技术中心把调度器实行自己的调度。我对上面能够提供各种服务,包括Hadoop生态系统的各种服务,这个可能是明年的主流趋势,现在还很难判断谁会获胜,我们可以首先尝试这两种方案,看哪种方案更有生命力。
总结一下就是我们把明年的发展趋势归纳成四个,一个混合架构消失,第二个我们发现SSD慢慢替代内存作用缓存因为性价比更高。第三实时大数据技术得到广泛关注,第四云计算与大数据终于可以融合。大家可以去外面展台看看我们新版本,有兴趣的也可以加入我们公司。