2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办,以推进大数据科研、应用与产业发展为主旨的 2014中国大数据技术大会 (Big Data Technology Conference 2014,BDTC 2014)暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店盛大开幕。
星环科技CTO孙元浩的演讲主题是“2015年大数据基础技术的演进趋势”。期间,他一共总结了四大趋势:SQL on Hadoop技术对SQL支持的完整度和性能大幅提升,混合架构将逐渐消失;从In-Memory Computing 转向 On-SSD Computing,固态盘将替代内存作为缓存;数据产生的速度以及处理的速度要求都在快速提高,实时大数据技术得到关注;虚拟化技术的快速演化与Hadoop技术的日益平台化,云计算与大数据终得融合。期间,他分享了Spark的一个数据:全球已有近50家企业围绕Spark提供产品和服务,11家提供商业Spark版本。
星环科技CTO 孙元浩
以下为演讲实录
孙元浩:
谢谢大家,谢谢张教授,我今天演讲的题目是2015年大数据技术的演进趋势,过去我们一直从事大数据实践,有一些心得跟大家分享一下。我们做了明年的预测,邀请大家一起验证。
第一个趋势是随着Hadoop快速技术的发展,完整程度核心提升我们认为混合架构逐渐逐渐开始消失。
这里我解释一下为什么出现混合架构,在过去几年当中Hadoop这个技术最早开始互联网公司使用,九年十年之前开始发展,几年前互联网公司在企业里面用得越来越多,它处理结构化出去和半结构化数据非常有利,但是处理结构化数据的时候不完整,用户觉得应该还有关于数据库,或者MPP数据库放在Hadoop方便协助处理非结构化的数据。第二个原因Hadoop开发的过程为TB级别,几百TB数据设计的,但是数据量小的时候,小于100T或者到10个T以下的时候,大家发现Hadoop的性能不如传统的MPP数据库,这样大家觉得开始使用混合架构,把部分数据放到MPP数据库进行计算,还有把实时数据放到MPP放入数据库,把内容数据放到Hadoop里面,这个数据量积累很大的时候再让Hadoop计算,这是混合架构典型的部署方式。
我们看到过去的三年过程当中Hadoop发展非常迅猛,很多公司快速做SQL开发,这个性能也有提升。我们总结了一下市场上大概有四种SQLHadoop的技术,我是说Hadoop系统里面原生开发SQL引擎的公司和技术。第一个是Impala,它的引擎采用类似于MPP的引擎。第二家是Tez,它吸收了MapReduce的一些设计思想。这个产品是2012年大概五六月份开始成型。第三个我们公司的产品我们叫做Inceptor,这是基于Spark开发的引擎,我们去年10月份是第一个版本,目前支持SQL2003,支持函数、游标等功能,我们SQL完整程度目前是所有Hadoop里面支持最完整的。同时,还有 SparkSQL和Drill。四类引擎每一个发展独立技术。Spark会成为一个主流。我们可以支持所有的测试机,用来衡量数据仓库的执行性能的,里面大量的非等值交易这些语句,这使SQL引擎支持比较有难度的。